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册 


第 0 章 万 里 长 征 第 一 步 (非常 重要 ) -如 何 愉快 的 阅读 本 小 


0.1 购买 前 警告 
。 此 小 册 并 非 数据 库 入 门 书籍 ， 需 要 各 位 知道 增删 改 查 是 哈 意 思 ， 并 且 能 用 SQL 语言 写 出 来 ， 当 然 并 不 要 求 


各 位 知道 的 太 多 ， 你 甚至 可 以 不 知道 连接 的 语法 都 可 以 。 不 过 如 果 你 连 SELECT 、 INSERT 这 些 单词 都 没 听 说 
过 那 本 小 册 并 不 适合 你 。 

此 小 册 非 正经 科学 专著 ， 永 非 十 二 五 国家 级 规划 教材 ， 也 没有 大 段 代码 和 详细 论证 ， 有 的 全 是 图 ， 喜 欢 正 经 
论述 的 同学 请 避免 购买 本 小 册 . 

此 小 册 作 者 乃 一 无 业 游民 ， 非 专业 大 做， 没有 任何 职称 ， 只 是 单单 喜欢 把 复杂 问题 讲 清楚 的 那 种 快感 ， 所 以 
喜欢 作者 有 Google、Facebook 高 级 开发 工程 师 ， 二 百年 工作 经 验 等 Title 的 同学 请 谨慎 购买 。 


。 此 小 册 是 用 于 介绍 MySQL 的 工作 原理 以 及 对 我 们 程序 猿 的 影响 ， 并 不 是 介绍 概念 设计 、 逮 辑 设 计 、 物 理 设 


计 、 范 式 化 之 类 的 数据 库 设 计 方面 的 知识 ， 希 望 了 解 上 述 这 些 知识 的 同学 来 错 地 方 了 。 


。 文章 标题 中 的 其 实 是 专门 雇 了 UC 震惊 部 小 编 起 的 ， 纯 属 为 了 吸引 大 家 有 眼球。 严格 意 


义 上 说 ， 本 书 只 是 介绍 MySQL 内 核 的 一 些 核心 概念 的 小 白 进 阶 书籍 。 大 家 读 完 本 小 册 也 不 会 一 下 子 晋升 业界 
大 佬 ， 当 上 CTO， 迎 娶 白 富美 ， 走 上 人 生 颤 峰 。 希 望 本 小 册 能 够 帮助 大 家 解决 一 些 工作 、 面 试 过 程 中 的 问 

题 ， 逐 渐 成 为 一 个 更 好 的 工程 师 ， 有 兴趣 的 小 伙伴 可 以 再 深入 研究 一 下 MySQL， 说 不 定 你 就 是 下 一 个 数据 
库 泰斗 啦 。 


0.2 购买 并 阅读 本 小 册 的 建议 


The following reading suggestions are very important. If 


you feel uncomfortable while reading the follow-up articles, 
it may be a violation of some of the suggestions below. 





。 本 小 册 是 一 本 待 出 版 的 纸 质 书籍 ， 并 非 一 些 杂 碎 文 章 的 集合 ， 是 非常 有 结构 和 套路 的 ， 所 以 大 家 阅读 时 干 万 


不 能 当 作 而 所 蹲 坑 、 吃 饭 看 手机 时 的 所 谓 碎片 化 读物 。 碎 片 化 阅读 只 适合 听 听 矮 大 紧 、 罗 胖子 他 们 扯 扯 犊 
子 ， 开 阔 一 下 视野 用 的 。 对 于 专业 的 技术 知识 来 说 ， 大 家 必须 付出 一 个 完整 的 时 间 段 进行 体系 化 学 习 ， 这 和 样 
尊重 知识 ， 工 资 才能 尊重 你 。 








顺便 说 一 句 ， 我 已 经 好 久 都 不 昕 罗 胖 子 扯 犊 子 了 ， 刚 开始 办 罗 辑 思维 的 时 候 觉 得 他 扯 的 还 可 以 ， 越 
往 后 越 觉 得 都 钻 钱 眼 儿 里 了 ， 天 天 在 鼓吹 焦虑 ， 让 大 家 去 买 他 们 的 鸡汤 课 。 不 过 听 听 矮 大 紧 就 挺 好 


















































。 本 小 册 是 由 Markdown 写成 ， 在 电脑 端 阅读 体验 十 分 舒服 ， 当 然 你 非 要 用 小 手机 看 我 也 不 拦 着 你 ， 但 是 效果 
打 了 折扣 是 你 的 损失 。 

。 为 了 保证 最 好 的 阅读 体验 ， 不 用 一 个 没 学 过 的 概念 去 介绍 另 一 个 新 概念 ， 本 小 册 的 章节 有 严重 的 依赖 性 ， 比 
如 你 在 没 读 InnoDB 数据 页 结构 前 干 万 不 要 就 去 读 B+ 树 索 引 ， 所 以 大 家 最 好 从 前 看 到 尾 ， 不 要 跳 着 看 ! 不 要 
跳 着 看 ! 不 要 跳 着 看 ! ， 当 然 ， 不 听 劝 告 我 也 不 能 说 哈 ， 祝 你 好 运 。 

大 家 可 能 买 过 别 的 小 册 ， 有 的 小 册 一 篇 文章 可 能 用 5 分 钟 、10 分 钟 读 完 ， 不 过 我 的 小 册子 每 一 篇 文章 都 比较 
长 ， 因 为 我 把 高 耦合 的 部 分 都 集中 在 一 篇 文章 中 了 。 文 章 中 埋 着 各 种 伏笔 ， 所 以 大 家 看 的 时 候 可 能 不 会 况 察 
出 来 很 突 元 的 转变 ， 所 以 在 阅读 一 篇 文章 的 时 候 干 万 不 要 跳 着 看 ! 不 要 跳 着 看 ! 不 要 跳 着 看 ! 

大 家 在 看 本 小 册 之 前 应 该 断断续续 看 过 一 些 与 本 小 册 内 容 相关 的 知识 ， 只 是 不 成 体系 ， 细 节 学 习 的 不 够 。 对 
于 这 部 分 读者 来 说 ， 希 望 大 家 像 倚 天 屠龙记 里 的 张无忌 一 样 ， 在 学 张三丰 的 太极 剑 法 时 先 忘记 之 前 的 武功 ， 
忘 的 越 干 净 ， 学 的 越 得 真传 。 这 样 才能 跟着 我 的 套路 走 下 去 。 

。 如 果 你 真 的 是 个 小 白 的 话 ， 那 这 里 头 的 数字 都 是 假 的 : 


一 re--1 一 一 一 


InnoDB 记 录 结 梳 
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hl 


B+ 树 索 引 


[£45305 J 


B+ 树 索引 的 使 用 


“1 | 有 目录 


InnoDB 的 表 空 间 


mL rh 


一 篇 文章 能 用 2 个 小 时 左右 的 时 间 掌 握 就 很 不 错 了 。 说 句 扫 大 家 兴 的 话 ， 昌 然 我 已 经 很 努力 的 想 让 大 家 的 学 
习 效率 提升 n 倍 ， 但 是 不 幸 的 是 想 掌 握 一 门 核心 技术 仍然 需要 大 家 多 看 几 遍 (不 然 工资 那么 好 涨 啊 ~ ) 。 


0.3 关于 工具 


本 小 册 中 会 涉及 很 多 InnoDB 的 存储 结构 的 知识 ， 比 如 记录 结构 、 页 结构 、 索 引 结构 、 表 空间 结构 等 等 ， 这 些 知 

识 是 所 有 后 续 知识 的 基础 ， 所 以 是 重 中 之 重 ， 需 要 大 家 认真 对 待 。Jeremy Cole 已 经 使 用 Ruby 开发 了 一 个 简易 

的 解析 这 些 基础 结构 的 工具 ，github 地 址 是 : innodb_ruby 的 github 地 址 

一 些 存储 结构 (此 工具 虽然 是 针对 MySQL 5. 6 的， 但 是 幸好 MySQL 的 基础 存储 结构 基本 没 多 大 变化 ， 所 以 大 部 分 
场景 下 这 个 innodb_rupy 工具 还 是 可 以 使 用 的 ) 。 


0.4 关于 盗版 


在 写 这 本 小 册 之 前 ， 我 天 真 的 以 为 只 需要 找 几 本 参考 书 ， 看 看 MySQL 的 官方 文档 ， 遇 到 | 不 会 的 地 方 百 度 谷歌 一 
下 就 可 以 在 3 个 月 内 解决 这 本 书 ， 后 来 的 现实 证 明 我 真 的 想 的 太美 了 。 不 仅 伦 了 大 量 的 时 间 阅 读 各 种 书籍 和 源 
码 ， 而 且 有 的 时 候 知 识 耦 合 太 厉害 ， 为 了 更 加 模块 化 的 把 知识 表述 清楚 ， 我 又 伦 了 大 量 的 时 间 来 思考 如 何 写 作 才 
能 符合 用 户 认 知 习惯 ， 还 花 了 非常 多 的 时 间 来 画 各 种 图 表 ， 总 之 就 是 心 票 啊 ~ 


我 希望 的 是 : 各 位 同学 可 以 用 很 低 的 成 本 来 更 快速 学 会 一 些 看 起 来 生 涩 难 懂 的 知识 ， 但 是 毕竟 我 不 是 马云 ， 不 能 
一 心 一 意 做 公益 ， 希 望 各 位 通过 正规 渠道 获得 小 册 ， 尊 重 一 下 版 权 。 
还 有 各 位 写 博客 的 同学 ， 引 用 的 少 了 叫 借鉴 ， 引 用 的 多 了 就 ， 就 有 点 那个 了 。 和 希望 各 位 不 要 大 段 大 段 的 复制 粘 
贴 ， 用 自己 的 话 写 出 来 的 知识 才 是 自己 的 东西 。 
我 知道 不 论 我 们 怎样 强调 版 权 意识 ， 总 是 有 一 部 分 小 伙伴 喜欢 不 劳 而 获 ， 总 是 喜欢 想 尽 各 种 渠道 来 弄 一 份 盗版 的 
看 ， 和 希望 这 部 分 同学 看 完 之 后 记 住 能 拍 个 大 腿 : 这 个 叫 小 孩子 的 家 伙 写 的 真 不 错 ， 之 后 在 工作 或 者 面试 中 用 到 了 
书 里 的 东西 还 能 想起 我 ， 当 然 ， 读 完了 之 后 记得 关注 一 下 公众 号 [我 们 都 是 小 青蛙 」 。 

小 贴 士 : 



































我 一 直 有 个 想法 ， 就 是 如 何 降 低 教 育成 本 。 现 在 教育 的 鼻 利 收费 模式 都 太 单 一， 就 是 直接 跟 学 生 收 上 课 
费 ， 导 致 课程 成 为 一 种 2C 的 商品 ， 价 格 高 低 其 实 和 内 容 质量 并 不 是 很 相关 ， 所 以 课程 提供 商会 投入 更 大 
的 精力 做 他 们 的 渠道 营销 。 所 以 现在 的 在 线 教育 市 场 就 是 渠道 为 王 ， 招 生 为 王 。 我 们 其 实 可 以 换 一 种 思 
路 ， 在 线 教育 的 优势 其 实 是 传播 费用 更 低 ， 一 个 人 上 课 和 一 千 万 人 上 课 的 费用 区 别 其 实 就 是 服务 器 使 用 
的 多 少 罢 了 ， 所 以 我 们 可 能 并 不 需要 那么 多 语文 老师 、 数 学 老师 ， 我 们 用 专业 的 导演 、 专 业 的 声优 、 专 
业 的 动画 制作 、 专 业 的 后 期 、 专 业 的 剪辑 、 专 业 的 编剧 组 成 的 团队 为 某 个 科目 制作 一 个 专业 的 课程 就 好 
了 嘛 (顺便 说 一 句 ， 我 就 可 以 转行 做 课程 编剧 了 〉! 把 课程 当 作 电影 、 电 视 剧 来 卖 ， 只 要 在 课程 中 植 入 
广告 ， 或 者 在 播放 平台 上 加 广告 就 好 了 嘛 ， 我 们 也 可 以 在 课程 里 培养 偶像 ， 来 做 一 波 粉 丝 经 济 。 这 样 课 
程 生产 方 也 赚钱 ， 学 生 们 也 省 钱 ， 最 主要 的 是 可 以 更 大 层 度 上 促进 教育 公平 ， 多 好 。 


0.5 关于 错误 


0.5.1 准确 性 问题 


我 不 是 神 ， 并 不 是 书 中 的 所 有 内 容 我 都 一 一 对 照 源码 来 验证 准确 性 (阅读 的 大 部 分 源码 是 关于 查询 优化 和 事务 处 
理 的 ) ， 如 果 各 位 发 现 了 文中 有 准确 性 问题 请 直接 联系 我 ， 我 会 加 入 Bug 列表 中 修正 的 。 


































































































































































































































































































































































































































































































0.5.2 阅读 体验 问题 


大 家 知道 大 部 分 人 在 长 大 之 后 就 忘记 了 自己 小 时 候 的 样子 ， 我 写本 书 的 初衷 就 是 有 很 多 资料 我 看 不 懂 ， 看 的 我 脑 
壳 疼 ， 之 后 才 决 定 从 小 白 的 角度 出 发 来 写 一 本 小 白 都 能 看 懂 的 技术 书籍 。 但 是 由 于 后 来 自己 学 的 东西 越 来 越 多 ， 
可 能 有 些 地 方 我 已 经 忘掉 了 小 白 的 想法 是 怎么 样 的 ， 所 以 大 家 在 阅读 过 程 中 有 任何 阅读 不 畅快 的 地 方 都 可 以 给 我 
提 ， 我 也 会 加 入 bug 列 表 中 逐一 优化 。 


0.6 关于 转发 


如 果 你 从 本 小 册 中 获取 到 了 自己 想 要 的 知识 ， 并 且 这 个 过 程 是 比较 轻松 愉快 的 ， 希 望 各 位 能 帮助 转发 本 小 册 ， 解 
放 一 下 学 不 懂 这 些 知识 的 童鞋 们 ， 多 节省 一 下 他 们 的 学 习 时 间 以 及 让 学 习 过 程 不 再 那么 痛苦 。 大 家 的 技术 都 长 进 
了 ， 咱 国家 的 技术 也 就 慢 慢 强 起 来 了 。 


0.7 关于 疑惑 


虽然 我 党 得 文章 写 的 已 经 很 清晰 了 ， 但 毕竟 只 是 "我 觉得 "， 不 是 大 家 觉得 。 传 道 授 业 解 惑 ， 解 惑 很 重要 。 在 学 习 
一 门 知识 时 ， 我 们 最 容易 让 一 些 问题 绊 住 脚步 ， 大 家 在 阅读 小 册 时 如 果 发 现 了 任何 你 觉得 让 你 很 困惑 的 问题 ， 都 
可 以 直接 加 微 信 xiaohaizi4919 问 我 ， 或 者 到 群 里 提问 题 (最 好 到 群 里 担 ， 这 样 大 家 都 能 看 到 ， 也 省 的 重复 提 
问 ) ， 我 在 力所能及 的 范围 内 尽力 帮 大 家 解答 。 


ED MySQL 是 怎样 运行 的 : 从 根 儿 上 理解 MySQL 
授 人 以 鱼 不 如 授 人 以 渔 ， 从 根 儿 上 理解 MySQL， 让 MySQL 不 再 是 一 个 黑 盒 。 






小 孩子 4919 公众 号 [我 们 都 是 小 青蛙 | 作者， 专注 将 复杂 概念 简单 化 


— 





0.8 闲话 

如 果 有 的 同学 购买 本 小 册 后 觉得 并 不 是 自己 的 菜 ， 那 很 遗憾 ， 我 不 能 给 你 退 款 ， 钱 是 扬 金 这 个 平台 收 的 。 不 过 我 
还 是 觉得 绝 大 部 分 同学 读 过 后 肯定 有 物 超 所 值 的 感受 ， 面 试 一 般 的 数据 库 问题 再 也 难 不 倒 各 位 了 ， 工 作 中 一 般 的 
数据 库 问 题 也 都 是 小 菜 一 碟 了 ， 想 继续 研究 MySQL 源码 的 同学 也 找到 方向 了 ， 如 果 你 觉得 29.9 元 不 能 表达 你 淘 
到 宝 的 喜悦 之 情 ， 那 这 好 说 ， 给 我 发 红包 就 好 了 。 


1 第 1 章 闭 作 自己 是 个 小 日 -重新 认识 MySQL 


标签 : MySQL 是 怎样 运行 的 


1.1 _ MySQL 的 客户 端 / 服务 器 架构 


以 我 们 平时 使 用 的 微 信 为 例 ， 它 其 实 是 由 两 部 分 组 成 的 ， 一 部 分 是 客户 端 程序 ， 一 部 分 是 服务 器 程序 。 客 户 端 可 
能 有 很 多 种 形式 ， 比 如 手机 APP， 电 脑 软 件 或 者 是 网 页 版 微 信 ， 每 个 客户 端 都 有 一 个 唯一 的 用 户 名 ， 就 是 你 的 微 
言 号 ， 另 一 方面 ， 腾 讯 公 司 在 他 们 的 机 房 里 运行 着 一 个 服务 器 软件 ， 我 们 平时 操作 微 信 其 实 都 是 用 客户 端 来 和 这 
个 服务 器 来 打交道 。 比 如 狗 哥 用 微 信 给 猫 爷 发 了 一 条 消息 的 过 程 其 实 是 这 样 的 : 


. 消息 被 客户 端 包 装 了 一 下 ， 添 加 了 发 送 者 和 接收 者 信息 ， 然 后 从 狗 哥 的 微 信 客户 端 传 送 给 微 信 服务 器 ; 
微 信 服务 器 从 消息 里 获取 到 它 的 发 送 者 和 接收 者 ， 根 据 消 息 的 接收 者 信息 把 这 条 消息 送 达到 猫 分 的 微 信 客 户 
端 ， 猫 苑 的 微 信 客 户 端 里 就 显示 出 狗 哥 给 他 发 了 一 条 消息 。 


MySQL 的 使 用 过 程 跟 这 个 是 一 样 的 ， 它 的 服务 器 程序 直接 和 我 们 存储 的 数据 打交道 ， 然 后 可 以 有 好 多 客户 端 程序 
连接 到 这 个 服务 器 程序 ， 发 送 增删 改 查 的 请 求 ， 然 后 服务 器 就 响应 这 些 请 求 ， 从 而 操作 它 维护 的 数据 。 和 微 信 一 
样 ， MySQL 的 每 个 客户 端 都 需要 提供 用 户 名 密码 才能 登录 ， 登 录 之 后 才能 给 服务 器 发 请 求 来 操作 某 些 数据 。 我 们 


IN 一 


日 常 使 用 MySQL 的 情景 一 般 是 这 样 的 : 


1. 启动 MySQL 服务 器 程序 。 

2. 启动 MySQL 客户 端 程序 并 连接 到 服务 器 程序 。 

3. 在 客户 端 程序 中 输入 一 些 命令 语句 作为 请 求 发 送 到 服务 器 程序 ， 服 务 器 程序 收 到 这 些 请 求 后 ， 会 根据 请 求 的 
内 容 来 操作 具体 的 数据 并 向 客户 端 返回 操作 结果 。 


我 们 知道 计算 机 很 牛 逼 ， 在 一 台 计 算 机 上 可 以 同时 运行 多 个 程序 ， 比 如 微 信 、QQ、 音 乐 播放 器 、 文 本 编辑 器 哈 
的 ， 每 一 个 运行 着 的 程序 也 被 称 为 一 个 进程 。 我 们 的 MySQL 服务 器 程序 和 客户 端 程序 本 质 上 都 算是 计算 机 上 的 
一 个 进程 ， 这 个 代表 着 MySQL 服务 器 程序 的 进程 也 被 称 为 MySQL 数 据 库 实例 ， 简 称 数据 库 实 例 。 


每 个 进程 都 有 一 个 唯一 的 编号 ， 称 为 进程 ID ， 英 文 名 叫 PID ， 这 个 编号 是 在 我 们 启动 程序 的 时 候 由 操作 系统 随 
机 分 配 的 ， 操 作 系 统 会 保证 在 某 一 时 刻 同一 台 机 器 上 的 进程 号 不 重复 。 比 如 你 打开 了 计算 机 中 的 QQ 程序 ， 那 么 
操作 系统 会 为 它 分 配 一 个 唯一 的 进程 号 ， 如 果 你 把 这 个 程序 关 掉 了 ， 那 操作 系统 就 会 把 这 个 进程 号 回收 ， 之 后 可 
能 会 重新 分 配给 别 的 进程 。 当 我 们 下 一 次 再 启动 QQ 程序 的 时 候 分 配 的 就 可 能 是 另 一 个 编号 。 每 个 进程 都 有 一 个 
名 称 ， 这 个 名 称 是 编写 程序 的 人 自己 定义 的 ， 比 如 我 们 启动 的 MySQL 服务 器 进程 的 默认 名 称 为 mysqld ， 而 我 们 
常用 的 MySQL 客户 端 进程 的 默认 名 称 为 mysql 。 


























1.2 MySQL 的 安装 


不 论 我 们 通过 下 载 源 代 码 自 行 编译 安装 的 方式 还 是 直接 使 用 官方 提供 的 安装 包 进 行 安装 之 后 ， MySQL 的 服务 器 程 
序 和 客户 端 程序 都 会 被 安装 到 我 们 的 机 器 上 。 不 论 使 用 上 述 两 者 的 哪 种 安装 方式 ， 一 定 一 定 一 定 (重要 的 话说 三 
遍 ) 要 记 住 你 把 MySQL 安装 到 哪 了 ， 换 句 话 说， 一 定 要 记 住 MySQL 的 安装 目录 。 

小 贴 士 : 


MySQL 的 大 部 分 安装 包 都 包含 了 服务 器 程序 和 客户 端 程序 ， 不 过 在 Linux 下 使 用 RPM 包 时 会 有 单独 的 服 
务 器 RPM 包 和 客户 端 RPM 包 ， 需 要 分 别 安装 。 





























另外 ， MySQL 可 以 运行 在 各 种 各 样 的 操作 系统 上 ， 我 们 后 边 会 讨论 在 类 UNIX 操作 系统 和 Windows 操作 系统 上 使 
用 的 一 些 差别 。 为 了 方便 大 家 理解 ， 我 在 mac0S 操作 系统 (苹果 电脑 使 用 的 操作 系统 ) 和 Windows 操作 系统 上 
都 安装 了 MySQL ， 它 们 的 安装 目录 分 别 是 : 


。 mac0S 操作 系统 上 的 安装 目录 : 
/usr/local/mysql/ 
。 Windows 操作 系统 上 的 安装 目录 : 
C:\Program Files\MySQL\MySQL Server 5.7 
下 边 我 会 以 这 两 个 安装 目录 为 例 来 进一步 扯 出 更 多 的 概念 ， 不 过 一 定 要 注意 ， 这 两 个 安装 目录 是 我 的 运行 不 
ei 录 , 一 定 要 记 着 把 下 边 示 例 中 用 到 安装 目录 的 地 方 替 换 为 你 自己 机 器 上 的 安装 


小 贴 士 : 
类 UNIX 操 作 系 统 非 常 多 ， 比 如 FreeBSD、Linux、mac0S、Solaris 等 都 属于 UNIX 操 作 系 统 的 范畴 ， 我 
们 这 里 使 用 mac0S 操 作 系 统 代表 类 UNIX 操 作 系 统 来 运行 MySQL。 
































1.2.1 bin 目 录 下 的 可 执行 文件 


在 MySQL 的 安装 目录 下 有 一 个 特别 特别 重要 的 bin 目录 ， 这 个 目录 下 存放 着 许多 可 执行 文件 ， 以 mac0S 系统 为 
例 ， 这 个 bin 目录 的 绝对 路 径 就 是 (在 我 的 机 器 上 ) : 


/usr/local/mysdql/bin 


我 们 列 出 一 些 在 mac0s 中 这 个 bin 目录 下 的 一 部 分 可 执行 文件 来 看 一 下 (文件 太 多 ， 全 列 出 来 会 刷 屏 的 ) : 


| 
| 
| 
] 
] 
4 
] 
4 
4 
1 
I 
1 
\ 
| 
] 
] 


|. server -> ../support-files/mysql. server 


“< 
[ep 
O 


ysqladmin 
ysqlbinlog 
[check 
ld 
ysqld multi 


“< 
[ep 
人 


ysqld safe 


[dump 


“< 
[ep 
en 


[import 
ysqlpump 
. (省 略 其 他 文件 ) 


0 directories, 40 files 


< 
[ep 
OO 


PITT 


es 





























Windows 中 的 可 执行 文件 与 mac0S 中 的 类 似 ， 不 过 都 是 以 . exe 为 扩展 名 的 。 这 些 可 执行 文件 都 是 与 服务 器 程序 
和 客户 端 程序 相关 的 ， 后 边 我 们 会 详细 啼 呆 一 些 比较 重要 的 可 执行 文件 ， 现 在 先 看 看 执行 这 些 文件 的 方式 ，。 


对 于 有 可 视 化 界面 的 操作 系统 来 说 ， 我 们 拿 着 鼠标 点 点 点 就 可 以 执行 某 个 可 执行 文件 ， 不 过 现在 我 们 更 关注 在 命 
令 行 环境 下 如 何 执行 这 些 可 执行 文件 ， 命 令 行 通俗 的 说 就 是 那些 黑 框 框 ， 这 里 的 指 的 是 类 UNIX 系统 中 的 Shel1 
或 者 Windows 系统 中 的 cmd. exe ， 如 果 你 现在 还 不 知道 怎么 启动 这 些 命令 行 工 具 ， 网 上 搜 搜 吧 ~ 下 边 我 们 以 
mac0S 系统 为 例 来 看 看 如 何 启动 这 些 可 执行 文件 〈 Windows 中 的 操作 是 类 似 的 ， 依 戎 上 态 画 杜 就 好 了 ) 


使 用 可 执行 文件 的 相对 / 绝对 路 径 假设 我 们 现在 所 处 的 工作 目录 是 MySQL 的 安装 目录 ， 也 就 
是 /usr/local/mysql ， 我 们 想 启 动 bin 目录 下 的 mysqld 这 个 可 执行 文件 ， 可 以 使 用 相对 路 径 来 启动 : 


. /bin/mysqld 

或 者 直接 输入 mysqld 的 绝对 路 径 也 可 以 : 
/usr/local/mysql/bin/mysqld 

将 该 bin 目录 的 路 径 加 入 到 环境 变量 PATH 中 


如 果 我 们 觉得 每 次 执行 一 个 文件 都 要 输入 一 串 长 长 的 路 径 名 贼 麻烦 的 话 ， 可 以 把 该 bin 目录 所 在 的 路 径 添加 
到 环境 变量 PATH 中 。 环 境 变 量 PATH 是 一 系列 路 径 的 集合 ， 各 个 路 径 之 间 使 用 冒号 : 隔离 开 ， 比 方 说 我 的 
机 器 上 的 环境 变量 PATH 的 值 就 是 : 


/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin 


我 的 系统 中 这 个 环境 变量 PATH 的 值 表明 : 当 我 在 输入 一 个 命令 时 ， 系 统 便 会 

在 /usr/local/bin 、/usr/bin: 、/bin: 、 /usr/sbin 、 /sbin 这 些 目录 下 依次 寻找 是 否 存在 我 们 输入 
的 那个 命令 ， 如 果 寻 找 成 功 ， 则 执行 该 目录 下 对 应 的 可 执行 文件 。 所 以 我 们 现在 可 以 修改 一 下 这 个 环境 变量 
PATH ， 把 MySQL 安装 目录 下 的 bin 目录 的 路 径 也 加 入 到 PATH 中 ， 在 我 的 机 器 上 修改 后 的 环境 变量 PATH 
的 值 为 : 


/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/mysql/bin 
这 样 现在 不 论 我 们 所 处 的 工作 目录 是 哈 ， 我 们 都 可 以 直接 输入 可 执行 文件 的 名 字 就 可 以 启动 它 ， 比 如 这 样 : 
mysqld 


方便 多 了 哈 ~ 





小 贴 士 : 
关于 啥 是 环境 变量 以 及 如 何在 当前 系统 中 添加 或 修改 系统 变量 不 是 我 们 踪 叫 的 范围 ， 大 家 找 本 相 
关 的 书 或 者 上 网 查 一 查 哈 一 


1.3 启动 MySQL 服 务 器 程序 


1.3.1 UNIX 里 启动 服务 器 程序 


在 类 UNIX 系统 中 用 来 启动 MySQL 服务 器 程序 的 可 执行 文件 有 很 多 ， 大 多 在 MySQL 安装 目录 的 bin 目录 下 ， 我 们 
一 起 来 且 旺 。 





























1.3.1.1 mysqld 

mysqld 这 个 可 执行 文件 就 代表 着 MySQL 服务 器 程序 ， 运 行 这 个 可 执行 文件 就 可 以 直接 启动 一 个 服务 器 进程 。 但 
这 个 命令 不 常用 ， 我 们 继续 往 下 看 更 牛 逼 的 启动 命令 。 

1.3.1.2 mysqld_safe 


mysqld_safe 是 一 个 启动 脚本 ， 它 会 间接 的 调用 mysqld ， 而 且 还 顺便 启动 了 另外 一 个 监控 进程 ， 这 个 监控 进程 
在 服务 器 进程 挂 了 的 时 候 ， 可 以 帮助 重启 它 。 另 外 ， 使 用 mysqld_safe 启动 服务 器 程序 时 ， 它 会 将 服务 器 程序 的 
出 错 信息 和 其 他 诊断 信息 重 定向 到 某 个 文件 中 ， 产 生出 错 日 志 ， 这 样 可 以 方便 我 们 找 出 发 生 错误 的 原因 。 

1.3.1.3 mysql.server 


mysql. server 也 是 一 个 启动 脚本 ， 它 会 间接 的 调用 mysqld_safe ， 在 调用 mysql. server 时 在 后 边 指 定 start 
参数 就 可 以 启动 服务 器 程序 了 ， 就 像 这 样 : 


mysql. server start 


需要 注意 的 是 ， 这 个 mysql.server 文件 其 实 是 一 个 链接 文件 ， 它 的 实际 文件 是 ../support-files/mysql.server.。 
我 使 用 的 mac0S 操作 系统 会 帮 我 们 在 bin 目录 下 自动 创建 一 个 指向 实际 文件 的 链接 文件 ， 如 果 你 的 操作 系统 没有 
帮 你 自动 创建 这 个 链接 文件 ， 那 就 自己 创建 一 个 员 ~ 别 告 诉 我 你 不 会 创建 链接 文件 ， 上 网 搜 搜 员 ~ 


另外 ， 我 们 还 可 以 使 用 mysql. server 命令 来 关闭 正在 运行 的 服务 器 程序 ， 只 要 把 start 参数 换 成 stop 就 好 
TT 


mysql. server stop 


1.3.1.4 mysqld_multi 

其 实 我 们 一 台 计 算 机 上 也 可 以 运行 多 个 服务 器 实例 ， 也 就 是 运行 多 个 MySQL 服务 器 进程 。 mysql_multi 可 执行 文 
件 可 以 对 每 一 个 服务 器 进程 的 启动 或 停止 进行 监控 。 这 个 命令 的 使 用 比较 复杂 ， 本 书 主要 是 为 了 讲 清楚 MySQL 服 
务 器 和 客户 端 运 行 的 过 程 ， 不 会 对 启动 多 个 服务 器 程序 进行 过 多 哮 鹃 。 

1.3.2 Windows 里 启动 服务 器 程序 

Windows 里 没有 像 类 UNIX 系统 中 那么 多 的 启动 脚本 ， 但 是 也 提供 了 手动 启动 和 以 服务 的 形式 启动 这 两 种 方式 ， 
下 边 我 们 详细 看 。 

1.3.2.1 mysqld 


同样 的 ， 在 MySQL 安装 目录 下 的 bin 目录 下 有 一 个 mysqld 可 执行 文件 ， 在 命令 行 里 输入 mysqld ， 或 者 直接 双 
击 运行 它 就 算 启动 了 MySQL 服务 器 程序 了 。 


1.3.2.2 以 服务 的 方式 运行 服务 器 程序 


首先 看 看 喻 是 个 Windows 服务 ? 如 果 无 论 是 谁 正在 使 用 这 人 台 计 算 机 ， 我 们 都 需要 长 时 间 的 运行 某 个 程序 ， 而 且 
需要 在 计算 机 启动 的 时 候 便 启动 它 ， 一 般 我 们 都 会 把 它 注册 为 一 个 Windows 服务 ， 操 作 系 统 会 帮 有 我 们 管理 它 。 
把 某 个 程序 注册 为 Windows 服务 的 方式 挺 简单 ， 如 下 : 


“完整 的 可 执行 文件 路 径 ”--install [-manual] [服务 名 ] 


其 中 的 -manual 可 以 省 略 ， 加 上 它 的 话 表 示 在 Windows 系统 启动 的 时 候 不 自动 启动 该 服务 ， 否 则 会 自动 启动 。 
服务 名 也 可 以 省 略 ， 默 认 的 服务 名 就 是 MySQL 。 比 如 我 的 Windows 计算 机 上 mysqld 的 完整 路 径 是 : 





C:\Program Files\MySQL\MySQL Server 5.7\bin\mysald 
所 以 如 果 我 们 想 把 它 注册 为 服务 的 话 可 以 在 命令 行 里 这 么 写 : 
“C:\Program Files\MySQL\MySQL Server 5.7\bin\mysqld” ~install 
在 把 mysqld 注册 为 Windows 服务 之 后 ， 我 们 就 可 以 通过 下 边 这 个 命令 来 启动 MySQL 服务 器 程序 了 : 


net start MySQL 


(作为 一 个 程序 猿 ， 还 是 用 黑 框 框 吧 ~ ) 。 
关闭 这 个 服务 也 非常 简单 ， 只 要 把 上 边 的 start 换 成 stop 就 行 了 ， 就 像 这 样 : 


net stop MySQL 


1.4 启动 MySQL 客 户 端 程 序 


在 我 们 成 功 启动 MySQL 服务 器 程序 后 ， 就 可 以 接着 启动 客户 端 程序 来 连接 到 这 个 服务 器 喉 ， bin 目录 下 有 许多 客 
户 端 程序 ， 比 方 说 mysqladmin 、 mysqldump 、 mysqlcheck 等 等 等 等 (好 多 呢 ， 就 不 一 一 列举 了 ) 。 这 里 我 们 
重点 要 关注 的 是 可 执行 文件 aysql ， 通 过 这 个 可 执行 文件 可 以 让 我 们 和 服务 器 程序 进程 交互 ， 也 就 是 发 送 请 求 ， 
接收 服务 器 的 处 理 结果 。 启 动 这 个 可 执行 文件 时 一 般 需 要 一 些 参数 ， 格 式 如 下 : 


mysql -h 主 机 名 ”-u 用 户 名 -p 密 码 


各 个 参数 的 意义 如 下 : | 参数 名 | 含义 | |:--:|:--| | -h | 表示 服务 器 进程 所 在 计算 机 的 域名 或 者 IP 地 址 ， 如 果 服 务 器 进 
程 就 运行 在 本 机 的 话 ， 可 以 省 略 这 个 参数 ， 或 者 填 localhost 或 者 127. 0. 0. 1 。 也 可 以 写作 --host= 主 机 名 的 
形式 。| | -u | 表示 用 户 名 。 也 可 以 写作 --user= 用 户 名 的 形式 。| | -p | 表示 密码 。 也 可 以 写作 --password= 密 
码 的 形式 。| 


小 贴 士 : 












































像 hp、u、p 这 样 名 称 只 有 一 个 英文 字母 的 参数 称 为 短 形 式 的 参数 ， 使 用 时 前 边 需要 加 单 短 划 线 ， 像 ho 
st、user、password 这 样 大 于 一 个 英文 字母 的 参数 称 为 长 形式 的 参数 ， 使 用 时 前 边 需 要 加 双 短 划 线 。 
后 边 会 详细 讨论 这 些 参数 的 使 用 方式 的 ， 稍 安 勿 躁 一 


比如 我 这 样 执行 下 边 这 个 可 执行 文件 (用 户 名 密码 按 你 的 实际 情况 填写 )， 就 可 以 启动 MySQL 客户 端 ， 并 且 连 接 到 
服务 器 了 。 





















































mysql -hlocalhost -uroot -p123456 


我 们 看 一 下 连接 成 功 后 的 界面 : 


Welcome to the MySQL monitor. Commands end with ; or Ng 
Your MySQL connection id is 2 
Server version: 5.7.21 Homebrew 


Copyright (c) 2000,，2018, Oracle and/or its affiliates. All rights reserved 
Oracle is a registered trademark of Oracle Corporation and/or its 
affiliates. Other names may be trademarks of their respective 

owners. 


Type ’help;” or ’\h for help. Type '\¢c” to clear the current input statement 


mysql> 


最 后 一 行 的 mysal> 是 一 个 客户 端的 提示 符 ， 之 后 客户 端 发 送 给 服务 器 的 命令 都 需要 写 在 这 个 提示 符 后 边 。 


如 果 我 们 想 断 开 客户 端 与 服务 器 的 连接 并 且 关 闭 客户 端的 话 ， 可 以 在 mysal> 提示 符 后 输入 下 边 任意 一 个 命令 : 


1. 
2. 


quit 
exit 


3. \q 


比如 我 们 输入 quit 试 试 : 


输出 了 Bye 说 明 客 户 端 程序 已 经 关 掉 了 。 注 意 注 意 注意 ， 这 是 关闭 客户 端 程序 的 方式 ， 不 是 关闭 服务 器 程序 的 方 


式 ， 


如 果 你 愿意 ， 你 可 以 多 打开 几 个 黑 框 框 ， 每 个 黑 框框 都 使 用 mysql -hlocahhost -uroot -p123456 来 运行 多 个 客 
户 端 程序 ， 每 个 客户 端 程序 都 是 互 不 影响 的 。 如 果 你 有 多 个 电脑 ， 也 可 以 试 试 把 它们 用 局 域 网 连 起 来 ， 在 一 个 电 


mysql> quit 
Bye 


怎么 关闭 服务 器 程序 上 一 节 里 踪 朋 过 了 。 


脑 上 启动 MySQL 服务 器 程序 ， 在 另 一 个 电脑 上 执行 mysql 命令 时 使 用 IP 地 址 作为 主机 名 来 连接 到 服务 器 。 


1.4.1 连接 注意 事项 


最 好 不 要 在 一 行 命令 中 输入 密码 。 


我 们 直接 在 黑 框 框 里 输入 密码 很 可 能 被 别人 看 到 ， 这 和 你 当 着 别人 的 面 输 入 银行 卡 密码 没 喻 区 别 ， 所 以 我 们 


在 执行 mysal 连接 服务 器 的 时 候 可 以 不 显 式 的 写 出 密码 ， 就 像 这 样 : 
mysql -hlocahhost -uroot -p 
点 击 回 车 之 后 才 会 提示 你 输入 密码 : 


Enter password: 


不 过 这 回 你 输入 的 密码 不 会 被 显示 出 来 ， 心 怀 不 轨 的 人 也 就 看 不 到 了 ， 输 入 完成 点 击 回 车 就 成 功 连接 到 了 服 


务 器 。 


如 果 你 非 要 在 一 行 命令 中 显 式 的 把 密码 输出 来 ， 那 -p 和 密码 值 之 间 不 能 有 空白 字符 (其 他 参数 名 之 间 可 以 


有 空白 字符 ) ， 就 像 这 样 : 
mysql -h localhost -u root -pl123456 
如 果 加 上 了 空白 字符 就 是 错误 的 ， 比 如 这 样 : 


mysql -hn localhost -u root -~p 123456 


。 mysql 的 各 个 参数 的 摆 放 顺 序 没 有 硬性 规定 ， 也 就 是 说 你 也 可 以 这 么 写 : 
mysql -p ~u root -h localhost 

。 如 果 你 的 服务 器 和 客户 端 安装 在 同一 台 机 器 上 ， -h 参数 可 以 省 略 ， 就 像 这 样 : 
mysql -u root -p 


。 如 果 你 使 用 的 是 类 UNIX 系统 ， 并 且 省 略 -u 参数 后 ， 会 把 你 登陆 操作 系统 的 用 户 名 当 作 MySQL 的 用 户 名 去 
处 理 。 


比方 说 我 用 登录 操作 系统 的 用 户 名 是 xiaohaizi ， 那 么 在 我 的 机 器 上 下 边 这 两 条 命令 是 等 价 的 : 


mysql -u xiaohaizi -p 


mysql -p 


对 于 Windows 系统 来 说 ， 默 认 的 用 户 名 是 0DBC ， 你 可 以 通过 设置 环境 变量 USER 来 添加 一 个 默认 用 户 名 。 


1.5 客户 端 与 服务 器 连接 的 过 程 


我 们 现在 已 经 知道 如 何 启动 MySQL 的 服务 器 程序 ， 以 及 如 何 启动 客户 端 程 序 来 连接 到 这 个 服务 器 程序 。 运 行 着 的 
服务 器 程序 和 客户 端 程序 本 质 上 都 是 计算 机 上 的 一 个 进程 ， 所 以 客户 端 进程 向 服务 器 进程 发 送 请 求 并 得 到 回复 的 
过 程 本 质 上 是 一 个 进程 间 通 信 的 过 程 ! MySQL 支持 下 边 三 种 客户 端 进程 和 服务 器 进程 的 通信 方式 。 


1.5.1 TCPI/IP 


真实 环境 中 ， 数 据 库 服 务 器 进程 和 客户 端 进程 可 能 运行 在 不 同 的 主机 中 ， 它 们 之 间 必 须 通过 网 络 来 进行 通讯 。 
MySQL 采用 TCP 作为 服务 器 和 客户 端 之 间 的 网 络 通信 协议 。 在 网 络 环境 下 ， 每 台 计 算 机 都 有 一 个 唯一 的 IP 地 

址 ， 如 果 某 个 进程 有 需要 采用 TCP 协议 进行 网 络 通信 方面 的 需求 ， 可 以 向 操作 系统 申请 一 个 端口 号 ， 这 是 一 个 
整数 值 ， 它 的 取 值 范围 是 0 65535 。 这 样 在 网 络 中 的 其 他 进程 就 可 以 通过 IP 地 址 + 端口 号 的 方式 来 与 这 个 进程 
连接 ， 这 样 进程 之 间 就 可 以 通过 网 络 进行 通信 了 。 


MySQL 服务 器 启动 的 时 候 会 默认 申请 3306 端口 号 ， 之 后 就 在 这 个 端口 号 上 等 待 客户 端 进程 进行 连接 ， 用 书面 一 
点 的 话 来 说 ， MySQL 服务 器 会 默认 监听 3306 端口。 


小 贴 士 : 


























“TCP/IP 网 络 体系 结构 是 现在 通用 的 一 种 网 络 体系 结构 ， 其 中 的 “TCP 和 IP 是 体系 结构 中 两 个 非常 重 
要 的 网 络 协 议 ， 如 果 你 并 不 知道 协议 是 什么 ， 或 者 并 不 知道 网 络 是 什么 ， 那 恐怕 兄弟 你 来 错 地 方 了 ， 找 
本 计算 机 网 络 的 书 去 是 晤 吧 ! 


















































什么 ?计算 机 网 络 的 书写 的 都 贼 星 汲 ， 看 不 懂 ? 没关系 ， 等 我 一 











如 果 3306 端口 号 已 经 被 别 的 进程 占用 了 或 者 我 们 单纯 的 想 自 定义 该 数据 库 实例 监听 的 端口 号 ， 那 我 们 可 以 在 启 
动 服务 器 程序 的 命令 行 里 添加 -P 参数 来 明确 指定 一 下 端口 号 ， 比 如 这 样 : 


mysqld -P3307 
这 样 MySQL 服务 器 在 启动 时 就 会 去 监听 我 们 指定 的 端口 号 3307 。 


如 果 客 户 端 进程 想 要 使 用 TCP/IP 网 络 来 连接 到 服务 器 进程 ， 比 如 我 们 在 使 用 mysql 来 启动 客户 端 程序 时 ,在 - 
h 参数 后 必须 跟随 IP 地 址 来 作为 需要 连接 的 服务 器 进程 所 在 主机 的 主机 名 ， 如 果 客 户 端 进程 和 服务 器 进程 在 一 
台 计 算 机 中 的 话 ， 我 们 可 以 使 用 127. 0. 0. 1 来 代表 本 机 的 IP 地 址 。 另 外 ， 如 果 服 务 器 进程 监听 的 端口 号 不 是 默 
认 的 3306 ， 我 们 也 可 以 在 使 用 mysql 启动 客户 端 程序 时 使 用 -P 参数 (大写 的 了 ， 小 写 的 p 是 用 来 指定 密码 
的 ) 来 指定 需要 连接 到 的 端口 号 。 比 如 我 们 现在 已 经 在 本 机 启动 了 服务 器 进程 ， 监 听 的 端口 号 为 3307 ， 那 我 们 
启动 客户 端 程序 时 5 以 这 样 写 : 


mysql -hl127. 0. 0.1 -uroot -P3307 -p 


不 知 大 家 发 现 了 没有 ， 我 们 在 启动 服务 器 程序 的 命令 mysqld 和 启动 客户 端 程序 的 命令 mysql 后 边 都 可 以 使 用 - 
P 参数 ， 关 于 如 何在 命令 后 边 指定 参数 ， 指 定 哪 些 参数 我 们 稍 后 会 详细 噶 胃 的 ， 稍 微 等 等 哈 ~ 





1.5.2 命名 管道 和 共享 内 存 


如 果 你 是 一 个 Windows 用 户 ， 那 么 客户 端 进程 和 服务 器 进程 之 间 可 以 考虑 使 用 命名 管道 或 共享 内 存 进行 通 
信 。 不 过 启用 这 些 通信 方式 的 时 候 需 要 在 启动 服务 器 程序 和 客户 端 程序 时 添加 一 些 参 数 : 
使 用 命名 管道 来 进行 进程 间 通 信 
需要 在 启动 服务 器 程序 的 命令 中 加 上 --enable-named-pipe 参数 ， 然 后 在 启动 客户 端 程序 的 命令 中 加 入 一 - 
pipe 或 者 --protocol=pipe 参数 。 
。 使 用 共享 内 存 来 进行 进程 间 通 信 
需要 在 启动 服务 器 程序 的 命令 中 加 上 --shared-memory 参数 ， 在 成 功 启动 服务 器 后 ， 共享 内 存 便 成 为 本 地 
客户 端 程序 的 默认 连接 方式 ， 不 过 我 们 也 可 以 在 启动 客户 端 程序 的 命令 中 加 入 --protocol=memory 参数 来 显 
式 的 指定 使 用 共享 内 存 进行 通信 。 
不 过 需要 注意 的 是 ,使 用 共享 内 存 的 方式 进行 通信 的 服务 器 进程 和 客户 端 进程 必须 在 同一 台 Windows 主机 
中 。 
小 贴 士 : 


命名 管道 和 共享 内 存 是 Windows 操 作 系 统 中 的 两 种 进程 间 通 信 方 式 ， 如 果 你 没 听 过 的 话 也 不 用 纠 
结 ， 并 不 妨碍 我 们 介绍 MySQL 的 知识 一 









































































































































1.5.3 Unix 域 套 接 字 文 件 

如 果 我 们 的 服务 器 进程 和 客户 端 进程 都 运行 在 同一 台 操作 系统 为 类 Unix 的 机 器 上 的 话 ， 我 们 可 以 使 用 Unix 域 套 
接 字 文 件 来 进行 进程 间 通 信 。 如 果 我 们 在 启动 客户 端 程序 的 时 候 指 定 的 主机 名 为 localhost ， 或 者 指定 了 一 
protocol=socket 的 启动 参数 ， 那 服务 器 程序 和 客户 端 程序 之 间 就 可 以 通过 Unix 域 套 接 字 文件 来 进行 通信 了 。 
MySQL 服务 器 程序 默认 监听 的 Unix 域 套 接 字 文 件 路 径 为 /tmp/mysql. sock ， 客 户 端 程序 也 默认 连接 到 这 个 
Unix 域 套 接 字 文件 。 如 果 我 们 想 改变 这 个 默认 路 径 ， 可 以 在 启动 服务 器 程序 时 指定 socket 参数 ， 就 像 这 样 : 


mysqld --Socket=/tmp/a. txt 


这 样 服务 器 启动 后 便 会 监听 /tmp/a. txt 。 在 服务 器 改变 了 默认 的 UNIX 域 套 接 字 文 件 后 ， 如 果 客 户 端 程序 想 通 
过 UNIX 域 套 接 字 文件 进行 通信 的 话 ， 也 需要 显 式 的 指定 连接 到 的 UNIX 域 套 接 字 文件 路 径 ， 就 像 这 样 : 


mysql -hlocalhost -uroot —-socket=/tmp/a. txt -p 


这 样 该 客户 端 进程 和 服务 器 进程 就 可 以 通过 路 径 为 /tmp/a. txt 的 Unix 域 套 接 字 文 件 进行 通信 了 。 


1.6 服务 器 处 理 客户 端 请 求 


其 实 不 论 客户 端 进程 和 服务 器 进程 是 采用 哪 种 方式 进行 通信 ， 最 后 实现 的 效果 都 是 : 客户 端 进程 向 服务 器 进程 发 
送 一 段 文本 (MySQL 语 句 ) ， 服 务 器 进程 处 理 后 再 向 客户 端 进程 发 送 一 段 文本 (处 理 结果 ) 。 那 服务 器 进程 对 客 
户 端 进程 发 送 的 请 求 做 了 什么 处 理 ， 才 能 产生 最 后 的 处 理 结果 呢 ? 客户 端 可 以 向 服务 器 发 送 增删 改 查 各 类 请 求 ， 
我 们 这 里 以 比较 复杂 的 查询 请 求 为 例 来 画 个 图 展示 一 下 大 致 的 过 程 : 
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从 图 中 我 们 可 以 看 出 ， 服 务 器 程序 处 理 来 自 客户 端的 查询 请 求 大 致 需要 经 过 三 个 部 分 ， 分 别 是 连接 管理 、 解析 
与 优化 、 存储 引擎 。 下 边 我 们 来 详细 看 一 下 这 三 个 部 分 都 干 了 什么 。 


1.6.1 连接 管理 


客户 端 进程 可 以 采用 我 们 上 边 介绍 的 TCP/IP 、 命名 管道 或 共享 内 存 、 Unix 域 套 接 字 这 几 种 方式 之 一 来 与 服务 
器 进程 建立 连接 ， 每 当 有 一 个 客户 端 进程 连接 到 服务 器 进程 时 ， 服 务 器 进程 都 会 创建 一 个 线程 来 专门 处 理 与 这 个 
客户 端的 交互 ， 当 该 客户 端 退出 时 会 与 服务 器 断 开 连 接 ， 服 务 器 并 不 会 立即 把 与 该 客户 端 交互 的 线程 销毁 掉 ， 而 
是 把 它 缓存 起 来 ， 在 另 一 个 新 的 客户 端 再 进行 连接 时 ， 把 这 个 缓存 的 线程 分 配给 该 新 客户 端 。 这 样 就 起 到 了 不 频 
繁 创建 和 销毁 线程 的 效果 ， 从 而 节省 开销 。 从 这 一 点 大 家 也 能 看 出 ， MySQL 服务 器 会 为 每 一 个 连接 进来 的 客户 站 
分 配 一 个 线程 ， 但 是 线程 分 配 的 太 多 了 会 严重 影响 系统 性 能 ， 所 以 我 们 也 需要 限制 一 下 可 以 同时 连接 到 服务 器 的 
客户 端 数量 ， 至 于 怎么 限制 我 们 后 边 再 说 哈 ~ 


在 客户 端 程序 发 起 连接 的 时 候 ， 需 要 携带 主机 信息 、 用 户 名 、 密 码 ， 服 务 器 程序 会 对 客户 端 程序 提供 的 这 些 信息 
进行 认证 ， 如 果 认 证 失败 ， 服 务 器 程序 会 拒绝 连接 。 另 外 ， 如 果 客 户 端 程序 和 服务 器 程序 不 运行 在 一 台 计 算 机 
上 ， 我 们 还 可 以 采用 使 用 了 SSL (安全 套 接 字 ) 的 网 络 连 接 进行 通信 ， 来 保证 数据 传输 的 安全 性 。 


当 连 接 建 立 后 ， 与 该 客户 端 关联 的 服务 器 线程 会 一 直 等 待 客 户 端 发 送 过 来 的 请 求 ， MySQL 服务 器 接收 到 的 请 求 只 
是 一 个 文本 消息 ， 该 文本 消息 还 要 经 过 各 种 处 理 ， 预 知 后 事 如 何 ， 继 续 往 下 看 哈 ~ 





























1.6.2 解析 与 优化 


到 现在 为 止 ， MySQL 服务 器 已 经 获得 了 文本 形式 的 请 求 ， 接 着 还 要 经 过 九 九 八 十 一 难 的 处 理 ， 其 中 的 几 个 比较 
重要 的 部 分 分 别 是 查询 缓存 、 语法 解析 和 查询 优化 ， 下 边 我 们 详细 来 看 。 








1.6.2.1 查询 缓存 


如 果 我 问 你 9+8X16-3X2X17 的 值 是 多 少 ， 你 可 能 会 用 计算 器 去 算 一 下 ， 或 者 牛 通 一 点 用 心算 ， 最 终 得 到 了 结 

果 35 ， 如 果 我 再 问 你 一 遍 9+8X 16-3X2X17 的 值 是 多 少 ， 你 还 用 再 傻 呵 呵 的 算 一 遍 么 ”我 们 刚刚 已 经 算 过 了 ， 

直接 说 答案 就 好 了 。 MySQL 服务 器 程序 处 理 查询 请 求 的 过 程 也 是 这 样 ， 会 把 刚刚 处 理 过 的 查询 请 求 和 结果 缓存 

起 来 ， 如 果 下 一 次 有 一 模 一 样 的 请 求 过 来 ， 直 接 从 缓存 中 查找 结果 就 好 了 ， 就 不 用 再 傻 呵 呵 的 去 底层 的 表 中 查找 
了 。 这 个 查询 缓存 可 以 在 不 同 客户 端 之 间 共 享 ， 也 就 是 说 如 果 客户 端 A 刚 刚 查 询 了 一 个 语句 ， 而 客户 端 B 之 后 发 送 
了 同样 的 查询 请 求 ， 那 么 客户 端 B 的 这 次 查询 就 可 以 直接 使 用 查询 缓存 中 的 数据 。 


当然 ， MySQL 服务 器 并 没有 人 聪明 ， 如 果 两 个 查询 请 求 在 任何 字符 上 的 不 同 (例如 : 空格 、 注 释 、 大 小 写 ) ， 都 
会 导致 缓存 不 会 命中 。 另 外 ， 如 果 查 询 请 求 中 包含 某 些 系 统 函数 、 用 户 自 定义 变量 和 函数 、 一 些 系 统 表 ， 如 
mysql 、information_schema、 performance_schema 数据 库 中 的 表 ， 那 这 个 请 求 就 不 会 被 缓存 。 以 某 些 系统 函 
数 举例 ， 可 能 同样 的 函数 的 两 次 调用 会 产生 不 一 样 的 结果 ， 比 如 函数 NOW ， 每 次 调用 都 会 产生 最 新 的 当前 时 间 ， 
如 果 在 一 个 查询 请 求 中 调用 了 这 个 函数 ， 那 即使 查询 请 求 的 文本 信息 都 一 样 ， 那 不 同时 间 的 两 次 查询 也 应 该 得 到 
不 同 的 结果 ， 如 果 在 第 一 次 查询 时 就 缓存 了 ， 那 第 二 次 查询 的 时 候 直 接 使 用 第 一 次 查询 的 结果 就 是 错误 的 ! 


不 过 既然 是 缓存 ， 那 就 有 它 缓存 失效 的 时 候 。MySQL 的 缓存 系统 会 监测 涉及 到 的 每 张 表 ， 只 要 该 表 的 结构 或 者 数 
据 被 修改 ， 如 对 该 表 使 用 了 INSERT 、 UPDATE 、 DELETE 、 TRUNCATE TABLE 、 ALTER TABLE 、 DROP TABLE 或 
DROP DATABASE 语句 ， 那 使 用 该 表 的 所 有 高 速 缓存 查询 都 将 变 为 无 效 并 从 高 速 缓存 中 删除 ! 


小 贴 士 : 
虽然 查询 缓存 有 时 可 以 提升 系统 性 能 ， 但 也 不 得 不 因 维护 这 块 缓存 而 造成 一 些 开销 ， 比 如 每 次 都 要 去 查 
询 缓存 中 检索 ， 查 询 请 求 处 理 完 需 要 更 新 查询 缓存 ， 维 护 该 查询 缓存 对 应 的 内 存 区 域 。 从 MySQL 5.7. 20 
开始 ， 不 推荐 使 用 查询 缓存 ， 并 在 MySQL 8. 0 中 删除 。 






















































































1.6.2.2 语法 解析 


如 果 查 询 缓 存 没有 命中 ， 接 下 来 就 需要 进入 正式 的 查询 阶段 了 。 因 为 客户 端 程序 发 送 过 来 的 请 求 只 是 一 段 文本 而 
已 ， 所 以 MySQL 服务 器 程序 首先 要 对 这 段 文本 做 分 析 ， 判 断 请 求 的 语法 是 否 正 确 ， 然 后 从 文本 中 将 要 查询 的 表 、 
各 种 查询 条 件 都 提取 出 来 放 到 MySQL 服务 器 内 部 使 用 的 一 些 数据 结构 上 来 。 

小 贴 士 : 

这 个 从 指定 的 文本 中 提取 出 我 们 需要 的 信息 本 质 上 算是 一 个 编译 过 程 ， 涉 及 词法 解析 、 语 法 分 析 、 语 义 
分 析 等 阶段 ， 这 些 问题 不 属于 我 们 讨论 的 范畴 ， 大 家 只 要 了 解 在 处 理 请 求 的 过 程 中 需要 这 个 步骤 就 好 
了 
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1.6.2.3 查询 优化 


语法 解析 之 后 ， 服 务 器 程序 获得 到 了 需要 的 信息 ， 比 如 要 查询 的 列 是 哪些 ， 表 是 哪个 ， 搜 索 条件 是 什么 等 等 ， 但 
光 有 这 些 是 不 够 的 ， 因 为 我 们 写 的 MySQL 语句 执行 起 来 效率 可 能 并 不 是 很 高 ， MySQL 的 优化 程序 会 对 我 们 的 语句 
做 一 些 优化 ， 如 外 连接 转换 为 内 连接 、 表 达 式 简化 、 子 查询 转 为 连接 吧 啦 吧 啦 的 一 堆 东 西 。 优 化 的 结果 就 是 生成 
一 个 执行 计划 ， 这 个 执行 计划 表明 了 应 该 使 用 哪些 索引 进行 查询 ， 表 之 间 的 连接 顺序 是 啥 样 的 。 我 们 可 以 使 用 
EXPLAIN 语句 来 查看 某 个 语句 的 执行 计划 ， 关 于 查询 优化 这 部 分 的 详细 内 容 我 们 后 边 会 仔细 啼 明 ， 现 在 你 只 需 
知道 在 MySQL 服务 器 程序 处 理 请 求 的 过 程 中 有 这 么 一 个 步骤 就 好 了 。 


1.6.3 存储 引擎 


截止 到 服务 器 程序 完成 了 查询 优化 为 止 ， 还 没有 真正 的 去 访问 真实 的 数据 表 ， MySQL 服务 器 把 数据 的 存储 和 提取 
操作 都 封装 到 了 一 个 叫 存储 引擎 的 模块 里 。 我 们 知道 表 是 由 一 行 一 行 的 记录 组 成 的 ， 但 这 只 是 一 个 逻辑 上 的 概 
念 ， 物 理 上 如 何 表 示 记 录 ， 怎 么 从 表 中 读 取 数 据 ， 怎 么 把 数据 写 入 具体 的 物理 存储 器 上 ， 这 都 是 存储 引擎 负责 
的 事情 。 为 了 实现 不 同 的 功能 ， MySQL 提供 了 各 式 各 样 的 存储 引擎 ， 不 同 存储 引擎 管理 的 表 具 体 的 存储 结构 
可 能 不 同 ， 采 用 的 存 取 算 法 也 可 能 不 同 。 


小 贴 士 : 

为 什么 叫 引擎 呢 ? 因 为 这 个 名 字 更 拉 风 ~ 其 实 这 个 存储 引擎 以 前 叫做 表 处 理 器 ， 后 来 可 能 人 们 觉 
得 太 土 ， 就 改 成 了 存储 引擎 的 叫 法 ， 它 的 功能 就 是 接收 上 层 传 下 来 的 指令 ， 然 后 对 表 中 的 数据 进行 提 
取 或 写 入 操作 。 


为 了 管理 方便 ， 人 们 把 连接 管理 、 查询 缓存 、 语法 解析 、 查询 优化 这 些 并 不 涉及 真实 数据 存储 的 功能 划分 
为 MySQL server 的 功能 ， 把 真实 存 取 数 据 的 功能 划分 为 存储 引擎 的 功能 。 各 种 不 同 的 存储 引 警 向 上 边 的 MySQL 
server 层 提供 统一 的 调用 接口 (也 就 是 存储 引擎 APl) ， 包 含 了 几 十 个 底层 沙 数 ， 像 " 读 取 索 引 第 一 条 内 容 "、" 读 
取 索 引 下 一 条 内 容 "、" 插 入 记录 "等 等 。 


所 以 在 MySQL server 完成 了 查询 优化 后 ， 只 需 按照 生成 的 执行 计划 调用 底层 存储 引擎 提供 的 API， 获 取 到 | 数据 后 
返回 给 客户 端 就 好 了 。 


1.7 常用 存储 引擎 
MySQL 支持 非常 多 种 存储 引擎， 我 这 先 列 举 一 些 : 






























































存储 引擎 描述 
BLACKHOLE 丢弃 写 操作 ， 读 操作 会 返回 空 内 容 
CSV 在 存储 数据 时 ， 以 逗号 分 隔 各 个 数据 项 
FEDERATED 用 来 访问 远程 表 
InnoDB 具备 外 键 支持 功能 的 事务 存储 引擎 
MEMORY 置 于 内 存 的 表 
MERGE 用 来 管理 多 个 MyISAM 表 构成 的 表 集 合 
MyISAM 主要 的 非 事务 处 理 存储 引擎 
NDB MySQL 集 群 专用 存储 引擎 


这 么 多 我 们 怎么 挑 啊 ， 哈 哈 ， 你 多 虑 了 ， 其 实 我 们 最 常用 的 就 是 InnoDB 和 MyISAM ， 有 时 会 提 一 下 Memory 。 其 
中 InnoDB 是 MySQL 默认 的 存储 引 警 ， 我 们 之 后 会 详细 踪 叫 这 个 存储 引擎 的 各 种 功能 ， 现 在 先 看 一 下 一 些 人 存储 引 
擎 对 于 某 些 功能 的 支持 情况 : 


Feature MylISAM _ Memory InnoDB Archive NDB 
B-tree indexes yes yes yes no no 
Backup/point-in-time recovery yes yes yes yes yes 
Cluster database support no no no no yes 
Clustered indexes no no yes no no 
Compressed data yes no yes yes no 
Data caches no N/A yes no yes 
Encrypted data yes yes yes yes yes 
Foreign key support no no yes no yes 
Full-text search indexes yes no yes no no 
Geospatial data type support yes no yes yes yes 
Geospatial indexing support yes no yes no no 


Hash indexes no yes no no yes 


Feature MylISAM _ Memory InnoDB Archive NDB 


Index caches yes N/A yes no yes 

Locking granularity Table Table Row Row Row 

MVCC no no yes no no 

Query cache support yes yes yes yes yes 

Replication support yes Limited yes yes yes 
Storage limits 256TB RAM 64TB None 384EB 

T-tree indexes no no no no yes 

Transactions no no yes no yes 

Update statistics for data dictionary yes yes yes yes yes 


密 麻 麻 列 了 这 么 多 ， 看 的 头皮 都 发 麻 了 ， 达 到 的 效果 就 是 告诉 你 : 这 玩意 儿 很 复杂 。 其 实 这 些 东西 大 家 没 必 要 
立即 就 给 记 住 我 列 出 来 的 目的 就 是 想 让 大 家 明白 不 同 的 存储 引擎 支持 不 同 的 功能 ， 有 些 重要 的 功能 我 们 会 在 后 
边 的 啼 明 中 慢 慢 让 大 家 理解 的 ~ 


1.8 关于 存储 引擎 的 一 些 操作 


1.8.1 查看 当前 服务 器 程序 支持 的 存储 引擎 
我 们 可 以 用 下 边 这 个 命令 来 查看 当前 服务 器 程序 支持 的 存储 引擎 


SHOW ENGINES; 


来 看 一 下 调用 效果 : 


mysql> SHOW ENGINES ; 


















































Engine Support | Comment 

Transactions | XA | Savepoints | 

InnoDB DEFAULT | Supports transactions, row-level locking, and foreign key 

S | YES YES | YES | 

MRG MYISAM YES Collection of identical MyISAM tables 

NO | NO | NO | 

MEMORY YES Hash based, stored in memory, useful for temporary tables 
NO | NO | NO | 

BLACKHOLE YES /dev/null storage engine (anything you write to it disapp 

ears) | NO NO | NO | 

MyISAM YES MylISAM Storage engine 

0 0 NO 

CSV YES CSV storage engine 

0 0 NO 

ARCHIVE YES Archive storage engine 

0 NO NO 
PERFORMANCE SCHEMA | YES Performance Schema 

0 0 NO 
FEDERATED NO Federated MySQL storage engine 

ULL NULL | NULL 








9 rows in set (0.00 sec) 


mysql> 


其 中 的 Support 列表 示 该 存储 引擎 是 否 可 用 ， DEFAULT 值 代表 是 当前 服务 器 程序 的 默认 存储 引擎 。 Comment 列 
是 对 存储 引擎 的 一 个 描述 ， 英 文 的 ， 将 就 着 看 吧 。 Transactions 列 代表 该 存储 引擎 是 否 支持 事务 处 理 。 XA 列 代 
表 着 该 存储 引擎 是 否 支持 分 布 式 事务 。 Savepoints 代表 着 该 列 是 否 支持 部 分 事务 回 滚 。 


小 贴 士 : 
好 吧 ， 也 许 你 并 不 知道 什么 是 个 事务 、 更 别提 分 布 式 事务 了 ， 这 些 内 容 我 们 在 后 边 的 章节 会 详细 路 叫 ， 
现在 莱 一 眼看 个 新 鲜 就 得 了 。 












































1.8.2 设置 表 的 存储 引擎 


我 们 前 边 说 过 ， 人 存储 引 警 是 负责 对 表 中 的 数据 进行 提取 和 写 入 工作 的 ， 我 们 可 以 为 不 同 的 表 设 置 不 同 的 存储 引 
擎 ， 也 就 是 说 不 同 的 表 可 以 有 不 同 的 物理 存储 结构 ， 不 同 的 提取 和 写 入 方式 。 


1.8.2.1 创建 表 时 指定 存储 引擎 


我 们 之 前 创建 表 的 语句 都 没有 指定 表 的 存储 引擎 ， 那 就 会 使 用 默认 的 存储 引擎 InnoDB (当然 这 个 默认 的 存储 引 
擎 也 是 可 以 修改 的 ， 我 们 在 后 边 的 章节 中 再 说 怎么 改 ) 。 如 果 我 们 想 显 式 的 指定 一 下 表 的 存储 引擎 ， 那 可 以 这 么 
写 : 


CREATE TABLE 表 名 ( 
建 表 语 句 ; 
) ENGINE = 存储 引擎 名 称 ; 











比如 我 们 想 创建 一 个 存储 引擎 为 MyISAM 的 表 可 以 这 么 


mysql> CREATE TABLE engine demo table( 
三 六 i int 
-> ) ENGINE = MyISAM; 

Query OK，0 rows affected (0. 02 sec) 


mysql> 


1.8.2.2 修改 表 的 存储 引擎 

如 果 表 已 经 建 好 了 ， 我 们 也 可 以 使 用 下 边 这 个 语句 来 修改 表 的 人 存储 引擎 
ALTER TABLE 表 名 ENGINE = 存储 引擎 名 称 ; 

比如 我 们 修改 一 下 engine_demo_table 表 的 存储 引擎 


mysql> ALTER TABLE engine demo table ENGINE = InnoDB; 
Query OK, 0 rows affected (0. 05 sec) 
Records: 0 Duplicates: 0 VWarnings: 0 


mysql> 
这 时 我 们 再 查看 一 下 engine_demo_table 的 表 结 构 : 


mysql> SHOW CREATE TABLE engine demo table\G 
六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 阔 、]】，。 OW 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 冰冰 
Table: engine demo table 
Create Table: CREATE TABLE engine demo table ( 
i int(11) DEFAULT NULL 
) ENGINE=InnoDB DEFAULT CHARSET=utf8 
1 row in set (0.01 sec) 


mysql> 


可 以 看 到 该 表 的 存储 引擎 已 经 改 为 InnoDB 了 。 


2 第 2 章 MySQL 的 调控 按钮- 启动 选项 和 系统 变量 


标签 : MySQL 是 怎样 运行 的 


如 果 你 用 过 手机 ， 你 的 手机 上 一 定 有 一 个 设置 的 功能 ， 你 可 以 选择 设置 手机 的 来 电 铃声 、 设 置 音量 大 小 、 设 置 解 
锁 密码 等 等 。 假 如 没有 这 些 设置 功能 ,我 们 的 生活 将 置 于 槛 众 的 境地 ， 比 如 在 图 书馆 里 无 法 把 手机 设置 为 静音 ， 
无 法 把 流量 开关 关 掉 以 节省 流量 ， 在 别人 叶 知 解锁 密码 后 无 法 更 改 密码 ~ MySQL 的 服务 器 程序 和 客户 端 程序 也 
有 很 多 设置 项 ， 比 如 对 于 MySQL 服务 器 程序 ， 我 们 可 以 指定 诸如 允许 同时 连 入 的 客户 端 数量 、 客 户 端 和 服务 器 通 
信 方 式 、 表 的 默认 存储 引擎 、 查 询 缓存 的 大 小 吧 啦 吧 啦 的 设置 项 。 对 于 MySQL 客户 端 程序 ， 我 们 之 前 已 经 见识 过 
了 ， 可 以 指定 需要 连接 的 服务 器 程序 所 在 主机 的 主机 名 或 |P 地 址 、 用 户 名 及 密码 等 信息 。 


这 些 设置 项 一 般 都 有 各 自 的 默认 值 ， 比 方 说 服务 器 允许 同时 连 入 的 客户 端的 默认 数量 是 151 ， 表 的 默认 存储 引擎 
是 InnoDB ， 我 们 可 以 在 程序 启动 的 时 候 去 修改 这 些 默认 值 ， 对 于 这 种 在 程序 启动 时 指定 的 设置 项 也 称 之 为 启动 
选项 (startup options) ， 这 些 选 项 控制 着 程序 启动 后 的 行为 。 在 MySQL 安装 目录 下 的 bin 目录 中 的 各 种 可 执行 
文件 ， 不 论 是 服务 器 相关 的 程序 (比如 mysqld 、 mysqld_safe ) 还 是 客户 端 相关 的 程序 (比如 mysql 、 

mysqladmin ) ， 在 启动 的 时 候 基 本 都 可 以 指定 启动 参数 。 这 些 启动 参数 可 以 放 在 命令 行 中 指定 ， 也 可 以 把 它们 


放 在 配置 文件 中 指定 。 下 边 我 们 会 以 mysqld 为 例 ， 来 详细 噶 功 指定 启动 选项 的 格式 。 需 要 注意 的 一 点 是 ， 我 们 
现在 要 噶 切 的 是 设置 启动 选项 的 方式 ， 下 边 出 现 的 启动 选项 不 论 大 家 认 不 认识 ， 先 不 用 去 纠结 每 个 选项 具体 的 作 
用 是 啥 ， 之 后 我 们 会 对 一 些 重要 的 启动 选项 详细 踪 切 。 


2.1 在 命令 行 上 使 用 选项 


如 果 我 们 在 启动 客户 端 程序 时 在 -h 参数 后 边 紧 跟 服务 器 的 IP 地 址 ， 这 就 意味 着 客户 端 和 服务 器 之 间 需 要 通过 
TCP/IP 网 络 进 行 通信 。 因 为 我 的 客户 端 程序 和 服务 器 程序 都 装 在 一 台 计 算 机 上 ， 所 以 在 使 用 客户 端 程序 连接 服 
务 器 程序 时 指定 的 主机 名 是 127. 0. 0. 1 的 情况 下 ， 客 户 端 进程 和 服务 器 进程 之 间 会 使 用 TCP/IP 网 络 进 行 通信 。 
如 果 我 们 在 启动 服务 器 程序 的 时 候 就 禁止 各 客户 端 使 用 TCP/IP 网 络 进行 通信 ， 可 以 在 启动 服务 器 程序 的 命令 行 
里 添加 skip-networking 启动 选项 ， 就 像 这 样 : 


mysqld --sSkip-networking 


可 以 看 到 ， 我 们 在 命令 行 中 指定 启动 选项 时 需要 在 选项 名 前 加 上 -- 前 缀 。 另 外 ， 如 果 选 项 名 是 由 多 个 单词 构成 
的 ， 它 们 之 间 可 以 由 短 划 线 - 连接 起 来 ， 也 可 以 使 用 下 划 线 “连接 起 来 ， 也 就 是 说 skip-networking 和 
skip_networking 表示 的 含义 是 相同 的 。 所 以 上 边 的 写法 与 下 边 的 写法 是 等 价 的 : 


mysqld ——skip networking 


在 按照 上 述 命令 启动 服务 器 程序 后 ， 如 果 我 们 再 使 用 mysal 来 启动 客户 端 程序 时 ， 再 把 服务 器 主机 名 指定 为 
127.0.0.1 (IP 地 址 的 形式 ) 的 话 会 显示 连接 失败 : 


mysql -hl127. 0.0.1 -uroot -p 
Enter password: 


ERROR 2003 (HY000): Can t connect to MySQL server on ’ 127.0.0.1 (61) 
这 就 意味 着 我 们 指定 的 启动 选项 skip-networking 生效 了 ! 


再 举 一 个 例子 ， 我 们 前 边 说 过 如 果 在 创建 表 的 语句 中 没有 显 式 指定 表 的 存储 引擎 的 话 ， 那 就 会 默认 使 用 InnoDB 
作为 表 的 存储 引擎 。 如 果 我 们 想 改 变 表 的 默认 存储 引擎 的 话 ， 可 以 这 样 写 启动 服务 器 的 命令 行 : 


mysqld —-default-storage-engine=MyISAM 
我 们 现在 就 已 经 把 表 的 默认 存储 引擎 改 为 MyISAM 了 ， 在 客户 端 程序 连接 到 服务 器 程序 后 试 着 创建 一 个 表 : 


mysql> CREATE TABLE sys var _ demo ( 
E> i INT 
> 

Query OK, 0 rows affected (0. 02 sec) 


这 个 定义 语句 中 我 们 并 没有 明确 指定 表 的 存储 引擎 ， 创 建成 功 后 再 看 一 下 这 个 表 的 结构 : 


mysql> SHOW CREATE TABLE sys var demo\G 
米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 炒米 米 寺 . 了 OW 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 
Table: sys var _ demo 
Create Table: CREATE TABLE sys var demo ( 
i int(11) DEFAULT NULL 
) ENGINE=MyISAM DEFAULT CHARSET=utf8 


1 row in set (0.01 sec) 
可 以 看 到 该 表 的 存储 引擎 已 经 是 MyISAM 了， 说明 启动 选项 default-storage-engine 生效 了 。 
所 以 在 启动 服务 器 程序 的 命令 行 后 边 指定 启动 选项 的 通用 格式 就 是 这 样 的 : 


一 启动 选项 1[= 值 1] 一 启动 选项 2[= 值 2] ..， 一 启动 选项 n[= 值 n] 





也 就 是 说 我 们 可 以 将 各 个 启动 选项 写 到 一 行 中 ， 各 个 启动 选项 之 间 使 用 空白 字符 卫 开 ， 在 每 一 个 启动 选项 名 称 前 
边 添加 -- 。 对 于 不 需要 值 的 启动 选项 ， 比 方 说 skip-networking ， 它 们 就 不 需要 指定 对 应 的 值 。 对 于 需要 指定 
值 的 启动 选项 ， 比 如 default-storage-engine 我 们 在 指定 这 个 设置 项 的 时 候 需 要 显 式 的 指定 它 的 值 ， 比 方 说 
InnoDB 、 MyISAM 啦 什么 的 ~ 在 命令 行 上 指定 有 值 的 启动 选项 时 需要 注意 ， 选 项 名 、=、 选 项 值 之 间 不 可 以 有 空 
白字 符 ， 比 如 写成 下 边 这 样 就 是 不 正确 的 : 


mysqld --default-storage-engine = MyISAM 


每 个 MySQL 程 序 都 有 许多 不 同 的 选项 。 大 多 数 程序 提供 了 一 个 --help 选 项 ， 你 可 以 查看 该 程序 支持 的 全 部 启动 选 
项 以 及 它们 的 默认 值 。 例 如 ， 使 用 mysql --help 可 以 看 到 mysql 程序 支持 的 启动 选项 ， mysqld_safe --help 
可 以 看 到 mysqld_safe 程序 支持 的 启动 选项 。 查 看 mysqld 支持 的 启动 选项 有 些 特别 ， 需 要 使 用 mysqld 一 


verbose --help 。 


2.1.1 选项 的 长 形式 和 短 形式 


我 们 前 边 提 到 的 skip-networking 、 default-storage-engine 称 之 为 长 形式 的 选项 (因为 它们 很 长 ) ， 设 计 
MySQL 的 大 叔 为 了 我 们 使 用 的 方便 ， 对 于 一 些 常用 的 选项 提供 了 短 形 式 ， 我 们 列举 一 些 具有 短 形式 的 启动 选项 来 
上 上 旺 (〈 MySQL 支持 的 短 形式 选项 太 多 了 ， 全 列 出 来 会 刷 屏 的 ) : 


长 形式 ” 短 形式 含义 


一 host -h 主机 名 
—-user -u 用 户 名 
——password -p ”密码 
——port -P 端口 
一 version -VY 版 本 信息 


短 形式 的 选项 名 只 有 一 个 字母 ， 与 使 用 长 形式 选项 时 需要 在 选项 名 前 加 两 个 短 划 线 一 不 同 的 是 ， 使 用 短 形式 ; 选 
项 时 在 选项 名 前 只 加 一 个 短 划 线 - 前 缀 。 有 一 些 短 形式 的 选项 我 们 之 前 已 经 接触 过 了 ， 比 方 说 我 们 在 启动 服务 器 
程序 时 指定 监听 的 端口 号 : 


mysqld -P3307 


使 用 短 形式 指定 启动 选项 时 ， 选 项 名 和 选项 值 之 间 可 以 没有 间隙 ， 或 者 用 空白 字符 隔 开 ( -p 选项 有 些 特殊 ， -p 
和 密码 值 之 间 不 能 有 空白 字符 ) ， 也 就 是 说 上 边 的 命令 形式 和 下 边 的 是 等 价 的 : 


mysqld -P 3307 


另外 ， 选 项 名 是 区 分 大 小 写 的 ， 比 如 -p 和 -P 选项 拥有 完全 不 同 的 合 义 ， 大 家 需要 注意 一 下 。 


2.2 配置 文件 中 使 用 选项 


在 命令 行 中 设置 启动 选项 只 对 当 次 启动 生效 ， 也 就 是 说 如 果 下 一 次 重启 程序 的 时 候 我 们 还 想 保 留 这 些 启动 选项 的 
话 ， 还 得 重复 把 这 些 选项 写 到 启动 命令 行 中 ， 这 样 真 的 神 烦 唉 ! 于 是 设计 MySQL 的 大 叔 们 提出 一 种 配置 文件 
(也 称 为 选项 文件 ) 的 概念 ， 我 们 把 需要 设置 的 启动 选项 都 写 在 这 个 配置 文件 中 ， 每 次 启动 服务 器 的 时 候 都 从 
这 个 文件 里 加 载 相应 的 启动 选项 。 由 于 这 个 配置 文件 可 以 长 久 的 保存 在 计算 机 的 硬盘 里 ， 所 以 只 需 我 们 配置 一 

次 ， 以 后 就 都 不 用 显 式 的 把 启动 选项 都 写 在 启动 命令 行 中 了 ， 所 以 我 们 推荐 使 用 配置 文件 的 方式 来 设置 启动 选 

项 。 





2.2.1 配置 文件 的 路 径 


MySQL 程序 在 启动 时 会 寻找 多 个 路 径 下 的 配置 文件 ， 这 些 路 径 有 的 是 固定 的 ， 有 的 是 可 以 在 命令 行 指定 的 。 根 据 
操作 系统 的 不 同 ， 配 置 文件 的 路 径 也 有 所 不 同 ， 我 们 分 开 看 一 下 。 
2.2.1.1 Windows 操 作 系 统 的 配置 文件 
在 Windows 操作 系统 中 ， MySQL 会 按照 下 列 路 径 来 寻找 配置 文件 : 
路 径 名 备注 
%WINDIR%Nmy. ini ， %WINDIR%Nmy. cnf 
C:Nmy. ini ， C:Nmny. cnf 
BASEDIR\my. ini ， BASEDIR\my. cnf 


defaults-extra-file 命 全 


从 
一 
%APPDATA%\MySQL\. mylogin. cnf 登录 路 径 选 项 ( 仪 限 客户 端 ) 


在 阅读 这 些 Windows 操作 系统 下 配置 文件 路 径 的 时 候 需 要 注意 一 些 事情 : 


。 在 给 定 的 前 三 个 路 径 中 ， 配 置 文件 可 以 使 用 . ini 的 扩展 名 ， 也 可 以 使 用 . cnf 的 扩展 名 。 
。 %WINDIR% 指 的 是 你 机 器 上 Windows 目录 的 位 置 ， 通 常 是 C:\WINDOWS ， 如 果 你 不 确定 ， 可 以 使 用 这 个 命令 
来 查看 : 


echo %WINDIR% 
。 BASEDIR 指 的 是 MySQL 安装 目录 的 路 径 ， 在 我 的 Windows 机 器 上 的 BASEDIR 的 值 是 : 
C:\Program Files\MySQL\MySQL Server 5.7 


第 四 个 路 径 指 的 是 我 们 在 启动 程序 时 可 以 通过 指定 defaults-extra-file 参数 的 值 来 添加 额外 的 配置 文件 路 
径 ， 比 方 说 我 们 在 命令 行 上 可 以 这 么 写 : 


mysqld --defaults-exttra-file=C:NXUserSsNxiaohaiziNmy extra file. txt 


这 样 MySQL 服务 器 启动 时 就 可 以 额外 在 C:\Users\xiaohaizi\my_extra_file. txt 这 个 路 径 下 查找 配置 文 
件 。 
%APPDATA% 表示 Windows 应 用 程序 数据 目录 的 值 ， 可 以 使 用 下 列 命令 查看 : 


echo %APPDATA% 


。 列表 中 最 后 一 个 名 为 .mylogin. cnf 配置 文件 有 点 儿 特 殊 ， 它 不 是 一 个 纯 文本 文件 (其 他 的 配置 文件 都 是 纯 
文本 文件 ) ， 而 是 使 用 mysql_config_editor 实用 程序 创建 的 加 密 文件 。 文 件 中 只 能 包含 一 些 用 于 启动 客户 
端 软件 时 连接 服务 器 的 一 些 选项 , 包括 host 、 user 、 password 、 port 和 socket 。 而 且 它 只 能 被 客户 
端 程序 所 使 用 。 


小 贴 士 : 
mysql_config_editor 实 用 程序 其 实 是 MySQL 安 装 目 录 下 的 bin 目 录 下 的 一 个 可 执行 文件 ， 这 个 实用 程序 
有 专用 的 语法 来 生成 或 修改 .mylogin. cnf 文件 中 的 内 容 ， 如 何 使 用 这 个 程序 不 是 我 们 讨论 的 主题 ， 可 
以 到 MySQL 的 官方 文档 中 查看 。 












































































































































2.2.1.2 类 Unix 操 作 系 统 中 的 配置 文件 
在 类 UNIX 操作 系统 中 ， MySQL 会 按照 下 列 路 径 来 寻找 配置 文件 : 
路 径 名 备注 


/etc/my. cnf 


路 径 名 备注 
/etc/mysql/my. cnf 
SYSCONFDIR/my. cnf 
$MYSQL_HOME/my. cnf 特定 于 服务 器 的 选项 〈 仪 限 服务 器 ) 
defaults-extra-file 命令 行 指定 的 额外 配置 文件 路 径 
~/. my. cnf 用 户 特定 选项 


“/.mylogin. cnf ”用 户 特定 的 登录 路 径 选 项 ( 仅 限 客户 端 ) 
在 阅读 这 些 UNIX 操作 系统 下 配置 文件 路 径 的 时 候 需 要 注意 一 些 事情 : 


。 SYSCONFDIR 表示 在 使 用 CMake 构建 MySQL 时 使 用 SYSCONFDIR 选项 指定 的 目录 。 默 认 情 况 下 ， 这 是 位 于 编 
译 安装 目录 下 的 etc 目录 。 


小 贴 士 : 
如 果 你 不 懂 啥 是 个 CMAKE， 啥 是 个 编译 ， 那 就 跳 过 吧 ， 对 我 们 后 续 的 文章 没 啥 影响 。 























MYSQL_HOME 是 一 个 环境 变量 ， 该 变量 的 值 是 我 们 自己 设置 的 ， 我 们 想 设置 就 设置 ， 不 想 设置 就 不 设置 。 该 
变量 的 值 代表 一 个 路 径 ， 我 们 可 以 在 该 路 径 下 创建 一 个 my. cnf 配置 文件 ， 那 么 这 个 配置 文件 中 只 能 放置 关 
于 启动 服务 器 程序 相关 的 选项 ( 言 外 之 意 就 是 其 他 的 配置 文件 既 能 存放 服务 器 相关 的 选项 也 能 存放 客户 端 相 
关 的 选项 ，. mylogin. cnf 除外 ， 它 只 能 存放 客户 端 相关 的 一 些 选项 ) 。 


小 贴 士 : 
如 果 大 家 使 用 mysqld_safe 启 动 服务 器 程序 ， 而 且 我 们 也 没有 主动 设置 这 个 MySQL_HOME 环 境 变 量 
的 值 ， 那 这 个 环境 变量 的 值 将 自动 被 设置 为 MySQL 的 安装 目录 ， 也 就 是 MySQL 服 务 器 将 会 在 安装 目录 
下 查找 名 为 my. cnf 配 置 文件 ( 别 忘 了 mysql. server 会 调用 mysqld safe， 所 以 使 用 mysql. server 启 

动 服务 器 时 也 会 在 安装 目录 下 查找 配置 文件 ) 。 


。 列表 中 的 最 后 两 个 以 ”开头 的 路 径 是 用 户 相 关 的 ， 类 UNIX 系统 中 都 有 一 个 当前 登陆 用 户 的 概念 ， 每 个 用 户 
都 可 以 有 一 个 用 户 目录 ， ”就 代表 这 个 用 户 目录 ， 大 家 可 以 查看 HOME 环境 变量 的 值 来 确定 一 下 当前 用 户 的 
用 户 目 录 ， 比 方 说 我 的 nac0S 机 器 上 的 用 户 目录 就 是 /Users/xiaohaizi 。 之 所 以 说 列表 中 最 后 两 个 配置 文 
件 是 用 户 相关 的 ， 是 因为 不 同 的 类 UNIX 系统 的 用 户 都 可 以 在 自己 的 用 户 目录 下 创建 . my. cnf 或 
者 .mylogin. cnf ， 换 句 话说 ,不 同 登 录用 户 使 用 的 . my. cnf 或 者 . mylogin. cnf 配置 文件 是 不 同 的 。 

。 defaults-extra-file 的 含义 与 Windows 中 的 一 样 。 

。 .mylogin. cnf 的 含义 也 同 Windows 中 的 一 样 ， 再 次 强调 一 遍 ， 它 不 是 纯 文 本 文件 ， 只 能 使 用 
mysql_config_editor 实用 程序 去 创建 或 修改 ， 用 于 存放 客户 端 登陆 服务 器 时 的 相关 选项 。 


这 也 就 是 说 ， 在 我 的 计算 机 中 这 几 个 路 径 中 的 任意 一 个 都 可 以 当 作 配置 文件 来 使 用 ， 如 果 它们 不 存在 ， 你 可 以 手 
动 创建 一 个 ， 比 方 说 我 手动 在 “/. my. cnf 这 个 路 径 下 创建 一 个 配置 文件 。 


另外 ， 我 们 在 踢 明 如 何 启动 MySQL 服务 器 程序 的 时 候 说 过 ， 使 用 mysqld_safe 程序 启动 服务 器 时 ， 会 间接 调用 
mysqld ， 所 以 对 于 传递 给 mysqld_safe 的 启动 选项 来 说 ， 如 果 mysqld_safe 程序 不 处 理 ， 会 接着 传递 给 
mysqld 程序 处 理 。 比 方 说 skip-networking 选项 是 由 mysqld 处 理 的 ， mysqld_safe 并 不 处 理 ， 但 是 如 果 我 们 
我 们 在 命令 行 上 这 样 执行 : 

































































































































































mysqld safe --sSkip-networking 


则 在 mysqld_safe 调用 mysqld 时 ,会 把 它 处 理 不 了 的 这 个 skip-networking 选项 交 给 mysqld 处 理 。 


2.2.2 配置 文件 的 内 容 


与 在 命令 行 中 指定 启动 选项 不 同 的 是 ， 配 置 文 件 中 的 启动 选项 被 划分 为 若干 个 组 ， 每 个 组 有 一 个 组 名 ， 用 中 括号 
[] 扩 起 来 ， 像 这 样 : 


[server] 


具体 的 启动 选项 ... ) 








[mysqld] 
具体 的 启动 选项 ...) 








[mysqld safe] 
具体 的 启动 选项 ... ) 








[client] 
具体 的 启动 选项 . . . ) 








[mysql]j 
具体 的 启动 选项 . . . ) 








[mysqladmin] 
具体 的 启动 选项 . . . ) 








像 这 个 配置 文件 里 就 定义 了 许多 个 组 ， 组 名 分 别 是 server 、 mysqld 、 mysqld safe 、 client 、 mysql 、 
mysqladmin 。 每 个 组 下 边 可 以 定义 若干 个 启动 选项 ， 我 们 以 [server] 组 为 例 来 看 一 下 填写 启动 选项 的 形式 (其 
他 组 中 启动 选项 的 形式 是 一 样 的 ) : 


























[server] 
optionl # 这 是 option1， 该 选项 不 需要 选项 值 
option2 = value2 # 这 是 option2， 该 选项 需要 选项 值 














在 配置 文件 中 指定 启动 选项 的 语法 类 似 于 命令 行 语法 ， 但 是 配置 文件 中 只 能 使 用 长 形式 的 选项 。 在 配置 文件 中 指 
定 的 启动 选项 不 允许 加 -- 前 缀 ， 并 且 每 行 只 指定 一 个 选项 ， 而 且 = 周围 可 以 有 空白 字符 (命令 行 中 选项 名 、 

= 、 选 项 值 之 间 不 允许 有 空白 字符 ) 。 另 外 ， 在 配置 文件 中 ， 我 们 可 以 使 用 # 来 添加 注释 ， 从 # 出 现 直 到 | 行 尾 
的 内 容 都 属于 注释 内 容 ， 读 取 配 置 文件 时 会 忽略 这 些 注释 内 容 。 为 了 大 家 更 容易 对 比 启动 选项 在 命令 行 和 配置 文 
件 中 指定 的 区 别 ， 我 们 再 把 命令 行 中 指定 optionl 和 option2 两 个 选项 的 格式 写 一 遍 看 看 : 


--optionl --option2=value2 


配置 文件 中 不 同 的 选项 组 是 给 不 同 的 启动 命令 使 用 的 ， 如 果 选 项 组 名 称 与 程序 名 称 相 同 ， 则 组 中 的 选项 将 专门 应 
用 于 该 程序 。 例 如 ， [mysqld] 和 [mysql] 组 分 别 应 用 于 mysqld 服务 器 程序 和 mysql 客户 端 程序 。 不 过 有 两 个 
选项 组 比较 特别 : 


。 [server] 组 下 边 的 启动 选项 将 作用 于 所 有 的 服务 器 程序 。 
。 [client] 组 下 边 的 启动 选项 将 作用 于 所 有 的 客户 端 程序 。 


需要 注意 的 一 点 是 ， mysqld_safe 和 mysql. server 这 两 个 程序 在 启动 时 都 会 读 取 [mysqld] 选项 组 中 的 内 容 。 
为 了 直观 感受 一 下 ， 我 们 挑 一 些 启动 命令 来 看 一 下 它们 能 读 取 的 选项 组 都 有 哪些 : 


启动 命令 类 别 能 读 取 的 组 
mysqld 启动 服务 器 [mysqld] 、 [server] 


mysdqld_ safe ”启动 服务 器 [mysqld] 、 [server] 、 [mysqld safe] 
mysql. server ”启动 服务 器 [mysqld] 、 [server] 、 [mysql. server] 
mysql 启动 客户 端 [mysql] 、 [client] 


mysqladmin 启动 客户 端 [mysqladmin] 、 [client] 


启动 命令 类 别 能 读 取 的 组 


mysqldump ”启动 客户 端 [mysqldump] 、 [client] 


现在 我 们 以 mac0S 操作 系统 为 例 ， 在 /etc/mysql/my. cnf 这 个 配置 文件 中 添加 一 些 内 容 ( Windows 系统 参考 上 
边 提 到 的 配置 文件 路 径 ) : 


[server] 
Skip-networking 
default-storage-engine=MyISAM 


然后 直接 用 mysqld 启动 服务 器 程序 : 
mysqld 


虽然 在 命令 行 没有 添加 启动 选项 ， 但 是 在 程序 启动 的 时 候 ， 就 会 默认 的 到 我 们 上 边 提 到 的 配置 文件 路 径 下 查找 配 
置 文件 ， 其 中 就 包括 /etc/mysql/my. cnf 。 又 由 于 mysqld 命令 可 以 读 取 [server] 选项 组 的 内 容 ， 所 以 skip- 
networking 和 default-storage-engine=MyISAM 这 两 个 选项 是 生效 的 。 你 可 以 把 这 些 启动 选项 放 在 [client] 组 
里 再 试 试用 mysqld 启动 服务 器 程序 ， 看 一 下 里 边 的 启动 选项 生效 不 ( 剧 透 一 下 ， 不 生效 ) 。 


小 贴 士 : 
如 果 我 们 想 指 定 mysql. server 程 序 的 启动 参数 ， 则 必须 将 它们 放 在 配置 文件 中 ， 而 不 是 放 在 命令 行 中 。 
mysql. server 仪 支持 start 和 stop 作 为 命令 行 参 数 。 






































2.2.3 特定 MySQL 版 本 的 专用 选项 组 


我 们 可 以 在 选项 组 的 名 称 后 加 上 特定 的 MySQL 版 本 号 ， 比 如 对 于 [mysqldj] 选项 组 来 说 ,我 们 可 以 定义 一 个 
[mysqld-5. 7] 的 选项 组 ， 它 的 含义 和 [mysqld] 一 样 ， 只 不 过 只 有 版 本 号 为 5. 7 的 mysqld 程序 才能 使 用 这 个 选 
项 组 中 的 选项 。 


2.2.4 配置 文件 的 优先 级 


我 们 前 边 啼 明 过 MySQL 将 在 某 些 固定 的 路 径 下 搜索 配置 文件 ， 我 们 也 可 以 通过 在 命令 行 上 指定 defaults-extra- 
file 启动 选项 来 指定 额外 的 配置 文件 路 径 。 MySQL 将 按照 我 们 在 上 表 中 给 定 的 顺序 依次 读 取 各 个 配置 文件 ， 如 
果 该 文件 不 存在 则 忽略 。 值 得 注意 的 是 ， 如 果 我们 在 多 个 配置 文件 中 设置 了 相同 的 启动 选项 ， 那 以 最 后 一 个 配置 
文件 中 的 为 准 。 比 方 说 /etc/my. cnf 文件 的 内 容 是 这 样 的 : 


[server] 
default-storage-engine=InnoDB 


而 “/. my. cnf 文件 中 的 内 容 是 这 样 的 : 


[server] 
default-storage-engine=MyISAM 


又 因为 “/. my. cnf 比 /etc/my. cnf 顺序 靠 后 ， 所 以 如 果 两 个 配置 文件 中 出 现 相 同 的 启动 选项 ， 以 “/. my. cnf 中 
的 为 准 ， 所 以 MySQL 服务 器 程序 启动 之 后 ， default-storage-engine 的 值 就 是 MyISAM 。 
2.2.5 同一 个 配置 文件 中 多 个 组 的 优先 级 


我 们 说 同一 个 命令 可 以 访问 配置 文件 中 的 多 个 组 ， 比 如 mysqld 可 以 访问 [mysqald] 、 [server] 组 ， 如 果 在 同一 
个 配置 文件 中 ， 比 如 “/. my. cnf ， 在 这 些 组 里 出 现 了 同样 的 配置 项 ， 比 如 这 样 : 


[server|] 


default-storage-engine=InnoDB 


Lmysqld] 
default-storage-engine=MyISAM 


那么 ， 将 以 最 后 一 个 出 现 的 组 中 的 启动 选项 为 准 ， 比 方 说 例子 中 default-storage-engine 既 出 现在 [mysqld] 组 
也 出 现在 [server] 组 ， 因 为 [mysqld] 组 在 [server] 组 后 边 ， 就 以 [mysqld] 组 中 的 配置 项 为 准 。 


2.2.6 defaults-file 的 使 用 


如 果 我 们 不 想 让 MySQL 到 默认 的 路 径 下 搜索 配置 文件 (就 是 上 表 中 列 出 的 那些 ) ， 可 以 在 命令 行 指定 defaults- 
file 选项 ， 比 如 这 样 (以 UNIX 系统 为 例 ) : 


mysqld —-defaults-file=/tmp/myconfig. txt 


这 样 ， 在 程序 启动 的 时 候 将 只 在 /tmp/myconfig. txt 路 径 下 搜索 配置 文件 。 如 果 文 件 不 存在 或 无 法 访问 ， 则 会 发 


生 错 误 。 


小 贴 士 : 


注意 defaults-extra-file 和 defaults-file 的 区 别 ， 使 用 defaults-extra-file 可 以 指定 额外 的 
配置 文件 搜索 路 径 〈 也 就 是 说 那些 固定 的 配置 文件 路 径 也 会 被 搜索 )。 


2.3 命令 行 和 配置 文件 中 启动 选项 的 区 别 


在 命令 行 上 指定 的 绝 大 部 分 启动 选项 都 可 以 放 到 配置 文件 中 ， 但 是 有 一 些 选 项 是 专门 为 命令 行 设计 的 ， 比 方 说 
defaults-extra-file 、 defaults-file 这 样 的 选项 本 身 就 是 为 了 指定 配置 文件 路 径 的 ， 再 放 在 配置 文件 中 使 用 
就 没 啥 意义 了 。 剩 下 的 一 些 只 能 用 在 命令 行 上 而 不 能 用 到 配置 文件 中 的 启动 选项 就 不 一 一 列举 了 ， 用 到 的 时 候 再 
提 哈 (本 书 中 基本 用 不 到 ， 有 兴趣 的 到 官方 文档 看 哈 ) 。 


另外 有 一 点 需要 特别 注意 ， 如 果 同 一 个 启动 选项 既 出 现在 命令 行 中 ， 又 出 现在 配置 文件 上 中， 那么 以 命令 行 中 的 启 
动 选项 为 准 ! 比如 我 们 在 配置 文件 中 写 了 : 





















































[serverj 


default-storage-engine=InnoDB 
而 我 们 的 启动 命令 是 : 
mysSql. server Start 一 default-storage-engine=MyISAM 


那 最 后 default-storage-engine 的 值 就 是 MyISAM ! 


2.4 系统 变量 


2.4.1 系统 变量 简介 


MySQL 服务 器 程序 运行 过 程 中 会 用 到 许多 影响 程序 行为 的 变量 ， 它 们 被 称 为 MySQL 系统 变量 ， 比 如 允许 同时 连 入 
的 客户 端 数量 用 系统 变量 max_connections 表示 ， 表 的 默认 存储 引 警 用 系统 变量 default_storage_engine 表 
示 ， 查 询 缓存 的 大 小 用 系统 变量 query cache size 表示 ， MySQL 服务 器 程序 的 系统 变量 有 好 几 百 条 ， 我 们 就 不 
列举 了 。 每 个 系统 变量 都 有 一 个 默认 值 ， 我 们 可 以 使 用 命令 行 或 者 配置 文件 中 的 选项 在 启动 服务 器 时 改变 一 
些 系统 变量 的 值 。 大 多 数 的 系统 变量 的 值 也 可 以 在 程序 运行 过 程 中 修改 ， 而 无 需 停 止 并 重新 启动 它 。 








2.4.2 查看 系统 变量 


我 们 可 以 使 用 下 列 命令 查看 MySQL 服务 器 程序 支持 的 系统 变量 以 及 它们 的 当前 值 : 














SHOW VARIABLES [LIKE 匹配 的 模式 ] ; 








由 于 系统 变量 实在 太 多 了 ， 如 果 我 们 直接 使 用 SHOW J Ss 所 以 通常 都 会 带 一 个 
LIKE 过 滤 条 件 来 查看 我 们 需要 的 系统 变量 的 值 ， 比 方 说 这 





mysql> SHOW VARIABLES LIKE ’ default storage_engine ; 





Variable name Value 





default storage engine | InnoDB 











1 row in set (0.01 sec) 





mysql> SHOW VARIABLES like ’max connections’; 








max connections 151 





Variable name Value | 
| 








1 row in set (0.00 sec) 


可 以 看 到 ， 现 在 服务 器 程序 使 用 的 默认 存储 引擎 就 是 InnoDB ， 
LIKE 表达 式 后 边 可 以 跟 通配符 来 进行 模糊 查询 ， 也 就 是 说 我 们 可 以 这 么 写 


mysql> SHOW VARIABLES LIKE ’ default%; 





Variable name 


Value 





default authentication plugin 
default password lifetime 
default storage engine 
default tmp_ storage engine 
default week format 


mysql native password 
0 

InnoDB 

InnoDB 

0 











5 rows in set (0.01 sec) 


mysql> 


这 样 就 查 出 了 所 有 以 default 开头 的 系统 变量 的 值 。 


2.4.3 设置 系统 变量 


2.4.3.1 通过 启动 选项 设置 


大 部 分 的 系统 变量 都 可 以 通过 启动 服务 器 时 传送 启动 选项 的 方式 来 进 





人 花 了 大 篇 幅 来 路 归 了 ， 就 是 下 边 两 种 方式 : 


。 通过 命令 行 添加 启动 选项 。 


比方 说 我 们 在 启动 服务 器 程序 时 用 这 个 命令 : 





分 洗 同时 连接 的 客户 训 数 量 最 多 为 151 。 别 忘 了 


受 置 。 如 何 填 写 启 动 选项 我 们 上 边 已 经 


行 i 


mysqld --default-storage-engine=MyISAM --max-connections=10 


。 通过 配置 文件 添加 启动 选 项 。 
我 们 可 以 这 样 填写 配置 文件 : 


[server] 
default-storage-engine=MyISAM 


max-connections=10 
当 使 用 上 边 两 种 方式 中 的 任意 一 种 启动 服务 器 程序 后 ， 我 们 再 来 查看 一 下 系统 变量 的 值 : 


mysql> SHOW VARIABLES LIKE ’ default storage_engine ; 





| Variable name Value | 








| default storage engine | MyISAM | 





1 row in set (0.00 sec) 


mysql> SHOW VARIABLES LIKE ’ max connections’; 





| Variable name | Value 





| max connections | 10 








1 row in set (0. 00 sec) 


mysql> 


可 以 看 到 default storage engine 和 max connections 这 两 个 系统 变量 的 值 已 经 被 修改 了 。 有 一 点 需要 注意 的 
是 ， 对 于 启动 选项 来 说 ， 如 果 启 动 选项 名 由 多 个 单词 组 成 ， 各 个 单词 之 间 用 短 划 线 - 或 者 下 划 线 “连接 起 来 都 可 
以 ， 但 是 对 应 的 系统 变量 之 间 必 须 使 用 下 划 线 _ 连接 起 来 。 


2.4.3.2 服务 器 程序 运行 过 程 中 设置 


系统 变量 比较 牛 副 的 一 点 就 是 ， 对 于 大 部 分 系统 变量 来 说 ， 它 们 的 值 可 以 在 服务 器 程序 运行 过 程 中 进行 动态 修 
改 而 无 需 停止 并 重启 服务 器 。 不 过 系统 变量 有 作用 范围 之 分 ， 下 边 详细 路 归 下 。 





旅 计 不 局 作 历 彤 思 禾 过 统 杰 绽 


我 们 前 边 说 过 ， 多 个 客户 端 程序 可 以 同时 连接 到 一 个 服务 器 程序 。 对 于 同一 个 系统 变量 ， 我 们 有 时 想 让 不 同 的 客 
户 端 有 不 同 的 值 。 比 方 说 狗 哥 使 用 客户 端 A， 他 想 让 当前 客户 端 对 应 的 默认 存储 引擎 为 InnoDB ， 所 以 他 可 以 把 系 
统 变量 default_storage_engine 的 值 设置 为 InnoDB ; 猫 爷 使 用 客户 端 B， 他 想 让 当前 客户 端 对 应 的 默认 存储 引 
擎 为 MyISAM ， 所 以 他 可 以 把 系统 变量 default_storage_engine 的 值 设置 为 MyISAM 。 这 样 可 以 使 狗 哥 和 猫 爷 的 
的 客户 端 拥有 不 同 的 默认 存储 引擎 ， 使 用 时 互 不 影响 ， 十 分 方便 。 但 是 这 样 各 个 客户 端 都 私有 一 份 系统 变量 会 
生 这 么 两 个 问题 : 


。 有 一 些 系统 变量 并 不 是 针对 单个 客户 端的 ， 比 如 允许 同时 连接 到 服务 器 的 客户 端 数量 max_connections ， 碍 
询 缓存 的 大 小 query_cache_size ， 这 些 公 有 的 系统 变量 让 某 个 客户 端 私有 显然 不 合适 。 
。 一 个 新 连接 到 服务 器 的 客户 端 对 应 的 系统 变量 的 值 该 怎么 设置 ? 


为 了 解决 这 两 个 问题 ， 设 计 MySQL 的 大 叔 提 出 了 系统 变量 的 作用 范围 的 概念 ， 具 体 来 说 作用 范围 分 为 这 两 
种 : 


。 GLOBAL : 全 局 变量 ， 影 响 服务 器 的 整体 操作 。 
。 SESSION : 会 话 变量 ， 影 响 革 个 客户 端 连接 的 操作 。 ( 注 : SESSION 有 个 别名 叫 LOCAL ) 




















在 服务 器 启动 时 ， 会 将 每 个 全 局 变量 初始 化 为 其 默认 值 (可 以 通过 命令 行 或 选项 文件 中 指定 的 选项 更 改 这 些 默 认 
值 ) 。 然 后 服务 器 还 为 每 个 连接 的 客户 端 维护 一 组 会 话 变量 ， 客 户 端的 会 话 变量 在 连接 时 使 用 相应 全 局 变量 的 当 
前 值 初始 化 。 


这 话 有 点 儿 绕 ， 还 是 以 default_storage_engine 举例 ， 在 服务 器 启动 时 会 初始 化 一 个 名 为 
default_storage_engine ， 作 用 范围 为 GLOBAL 的 系统 变量 。 之 后 每 当 有 一 个 客户 端 连 接 到 该 服务 器 时 ， 服 务 器 
都 会 单独 为 该 客户 端 分 配 一 个 名 为 default_storage_engine ， 作 用 范围 为 SESSION 的 系统 变量 ， 该 作用 范围 为 
SESSION 的 系统 变量 值 按照 当前 作用 范围 为 GLOBAL 的 同名 系统 变量 值 进行 初始 化 。 


很 显然 ， 通 过 启动 选项 设置 的 系统 变量 的 作用 范围 都 是 GLOBAL 的 ， 也 就 是 对 所 有 客户 端 都 有 效 的 ， 因 为 在 系统 
启动 的 时 候 还 没有 客户 端 程序 连接 进来 呢 。 了 解 了 系统 变量 的 GLOBAL 和 SESSION 作用 范围 之 后 ， 我 们 再 看 一 下 
在 服务 器 程序 运行 期 间 通过 客户 端 程序 设置 系统 变量 的 语法 : 


SET [GLOBAL|SESSION] 系统 变量 名 = 值 ; 
或 者 写成 这 样 也 行 : 
SET [@@ (GLOBAL |SESSION). Jvar name = XXX:; 


比如 我 们 想 在 服务 器 运行 过 程 中 把 作用 范围 为 GbLOBAL 的 系统 变量 default_storage_engine 的 值 修改 为 
MyISAM ， 也 就 是 想 让 之 后 新 连接 到 服务 器 的 客户 端 都 用 MyISAM 作为 默认 的 存储 引擎 ， 那 我 们 可 以 选择 下 边 两 条 
语句 中 的 任意 一 条 来 进行 设置 : 


语句 一 : SET GLOBAL default storage engine = MyISAM; 
语句 二 : SET @@GLOBAL. default storage engine = MyISAM; 





如 果 只 想 对 本 客户 端 生效 ， 也 可 以 选择 下 边 三 条 语句 中 的 任意 一 条 来 进行 设置 : 


语句 一 : SET SESSION default _ storage engine = MyISAM; 
语句 二 : SET @@SESSION. default storage engine = MyISAM; 
语句 三 : SET default storage engine = MyISAM; 





从 上 边 的 语句 三 也 可 以 看 出 ， 如 果 在 设置 系统 变量 的 语句 中 省 略 了 作用 范围 ， 默 认 的 作用 范围 就 是 SESSION 。 
也 就 是 说 SET 系统 变量 名 = 值 和 SET SESSION 系统 变量 名 = 值 是 等 价 的 。 








营 得 不 局 舍 历 属 忆 和 族 郝 纹 杰 香 

既然 系统 变量 有 作用 范围 之 分 ， 那 我 们 的 SHOW VARIABLES 语句 查看 的 是 什么 作用 范围 的 系统 变量 呢 ? 
答 : 默认 查看 的 是 SESSION 作用 范围 的 系统 变量 。 

当然 我 们 也 可 以 在 查看 系统 变量 的 语句 上 加 上 要 查看 哪个 作用 范围 的 系统 变量 ， 就 像 这 样 : 



































SHOW [GLOBAL|SESSION] VARIABLES [LIKE 匹配 的 模式 ] ; 


下 边 我 们 演示 一 下 完整 的 设置 并 查看 系统 变量 的 过 程 : 


mysql> SHOW SESSION VARIABLES LIKE ’ default storage_engine ; 





Variable name Value 





default storage engine | InnoDB 














1 row in set (0.00 sec) 


mysql> SHOW GLOBAL VARIABLES LIKE ’ default storage engine’; 





Variable name Value 





default storage engine | InnoDB 














1 row in set (0.00 sec) 


mysql> SET SESSION default storage engine = MyISAM; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SHOW SESSION VARIABLES LIKE ’ default storage_engine ; 





Variable name Value 





default storage engine | MyISAM 














1 row in set (0.00 sec) 


mysql> SHOW GLOBAL VARIABLES LIKE ”default storage engine’; 





Variable name Value 





default storage engine | InnoDB 














1 row in set (0.00 sec) 


mysql> 


可 以 看 到 ， 最 初 default_storage_engine 的 系统 变量 无 论 是 在 GLOBAL 作用 范围 上 还 是 在 SESSION 作用 范围 上 
的 值 都 是 InnoDB ， 我 们 在 SESSION 作用 范围 把 它 的 值 设置 为 MyISAM 之 后 ， 可 以 看 到 GLOBAL 作用 范围 的 值 并 没 
有 改变 。 


小 贴 士 : 
如 果菜 个 客户 端 改 变 了 某 个 系统 变量 在 GLOBAL 作用 范围 的 值 ， 并 不 会 影响 该 系统 变量 在 当前 已 经 连接 
的 客户 端 作用 范围 为 SESSION 的 值 ， 只 会 影响 后 续 连 入 的 客户 端 在 作用 范围 为 SESSION 的 值 
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P73E/R 


。 并 不 是 所 有 系统 变量 都 具有 GLOBAL 和 SESSION 的 作用 范围 。 
= 有 一 些 系统 变量 只 具有 GLOBAL 作用 范围 ， 比 方 说 max_connections ， 表 示 服 务 器 程序 支持 同时 最 多 有 
多 少 个 客户 端 程序 进行 连接 。 
， 有 一 些 系统 变量 只 具有 SESSION 作用 范围 ， 比 如 insert_id ， 表 示 在 对 某 个 包含 AUTO_INCREMENT 列 的 
表 进 行 插入 时 ， 该 列 初始 的 值 。 


=。 有 一 些 系统 变量 的 值 既 具有 GLOBAL 作用 范围 ， 也 具有 SESSION 作用 范围 ， 比 如 我 们 前 边 用 到 的 
default_storage_engine ， 而 且 其 实 大 部 分 的 系统 变量 都 是 这 样 的 ， 
。 有 些 系统 变量 是 只 读 的 ， 并 不 能 设置 值 。 


比方 说 version ， 表 示 当 前 MySQL 的 版 本 ， 我 们 客户 端 是 不 能 设置 它 的 值 的 ， 只 能 在 SHOW VARIABLES 语句 
里 查看 。 


2.4.4 启动 选项 和 系统 变量 的 区 别 


启动 选项 是 在 程序 启动 时 我 们 程序 员 传递 的 一 些 参数 ， 而 系统 变量 是 影响 服务 器 程序 运行 行为 的 变量 ， 它 们 之 
间 的 关系 如 下 : 


。 大 部 分 的 系统 变量 都 可 以 被 当 作 启动 选项 传 入 。 
。 有 些 系统 变量 是 在 程序 运行 过 程 中 自动 生成 的 ， 是 不 可 以 当 作 启动 选项 来 设置 ， 比 如 
auto increment offset 、 character set client 哈 的 。 


。 有 些 启动 选项 也 不 是 系统 变量 ， 比 如 defaults-file 。 





2.5 状态 变量 


为 了 让 我 们 更 好 的 了 解 服 务 器 程序 的 运行 情况 ， MySQL 服务 器 程序 中 维护 了 好 多 关于 程序 运行 状态 的 变量 ， 它 们 
被 称 为 状态 变量 。 比 方 说 Threads_connected 表示 当前 有 多 少 客户 端 与 服务 器 建立 了 连接 ， Handler_update 
表示 已 经 更 新 了 多 少 行 记录 吧 啦 吧 啦 ， 像 这 样 显示 服务 器 程序 状态 信息 的 状态 变量 还 有 好 几 百 个 ， 我 们 就 不 一 
一 啼 明 了 ， 等 遇 到 了 会 详细 说 它们 的 作用 的 。 


由 于 状态 变量 是 用 来 显示 服务 器 程序 运行 状况 的 ， 所 以 它们 的 值 只 能 由 服务 器 程序 自己 来 设置 ， 我 们 程序 员 是 
不 能 设置 的 。 与 系统 变量 类 似 ， 状态 变量 也 有 GLOBAL 和 SESSION 两 个 作用 范围 的 ， 所 以 查看 状态 变量 的 语 
句 可 以 这 么 写 : 

















SHOW [GLOBAL|SESSION] STATUS [LIKE 匹配 的 模式 ] ; 
类 似 的 ， 如 果 我 们 不 写 明 作用 范围 ， 默 认 的 作用 范围 是 SESSION ， 比 方 说 这 样 : 


mysql> SHOW STATUS LIKE“thread% ; 





Variable name Value 





Threads cached 
Threads_ connected 


Threads created 

















Ee 


Threads running 





4 rows in set (0.00 sec) 


mysql> 


所 有 以 Thread 开头 的 SESSION 作用 范围 的 状态 变量 就 都 被 展示 出 来 了 。 


3 第 3 章 乱码 的 前 世 今生 -字符 集 和 比较 规则 


标签 : _ MySQL 是 怎样 运行 的 


3.1 字符 集 和 比较 规则 简介 


3.1.1 字符 集 简 介 


我 们 知道 在 计算 机 中 只 能 存储 二 进 制 数据 ， 那 该 怎么 存储 字符 串 呢 ”当然 是 建立 字符 与 二 进 制 数据 的 映射 关系 
了 ， 建 立 这 个 关系 最 起 码 要 搞 清楚 两 件 事 儿 : 


1. 你 要 把 哪些 字符 映射 成 二 进 制 数据 ? 


也 就 是 界定 清楚 字符 范围 。 
2. 怎么 映射 ? 


将 一 个 字符 映射 成 一 个 二 进 制 数据 的 过 程 也 叫做 编码 ， 将 一 个 二 进 制 数据 映射 到 一 个 字符 的 过 程 叫 做 解 
码 。 


人 们 抽象 出 一 个 字符 集 的 概念 来 描述 某 个 字符 范围 的 编码 规则 。 比 方 说 我 们 来 自 定义 一 个 名 称 为 xiaohaizi 的 
字符 集 ， 它 包含 的 字符 范围 和 编码 规则 如 下 : 


“包含 字符 'a 、'b 、'、'B， 
。 编码 规则 如 下 : 


采用 1 个 字 节 编码 一 个 字符 的 形式 ， 字 符 和 字 节 的 映射 关系 如 下 : 





"a”-> 00000001 (十 六 进 制 : 0x01) 
"b”-> 00000010 (十 六 进 制 ，0x02) 
”A” 一 > 00000011 (十 六 进 制 : 0x03) 
"B”-> 00000100 (十 六 进 制 : 0x04) 


有 了 xiaohaizi 字符 集 ， 我 们 就 可 以 用 二 进 制 形式 表示 一 些 字 符 串 了 ， 下 边 是 一 些 字符 串 用 xiaohaizi 字符 集 编 
码 后 的 二 进 制 表示 : 


"bA” -> 0000001000000011 (十 六 进 制 ，0x0203) 
:baB” -> 000000100000000100000100 “(十 六 进 制 ，0x020104) 
”cd”--> 无 法 表示 ， 字 符 集 xiaohaizi 不 包含 字符 ”ce 和 ”dd 






































3.1.2 比较 规则 简介 


在 我 们 确定 了 xiaohaizi 字符 集 表示 字符 的 范围 以 及 编码 规则 后 ， 怎 么 比较 两 个 字符 的 大 小 呢 ? 最 容易 想到 的 就 
是 直接 比较 这 两 个 字符 对 应 的 二 进 制 编码 的 大 小 ， 比 方 说 字符 “a” 的 编码 为 0x01 ， 字 符 “b ”的 编码 为 0x02 ， 
所 以 “a 小 于 pb” ， 这 种 简单 的 比较 规则 也 可 以 被 称 为 二 进 制 比较 规则 ， 英 文 名 为 binary collation 。 


二 进 制 比较 规则 是 简单 ， 但 有 时 候 并 不 符合 现实 需求 ， 比 如 在 很 多 场合 对 于 英文 字符 我 们 都 是 不 区 分 大 小 写 的 ， 
也 就 是 说 “a 和 “A 是 相等 的 ， 在 这 种 场合 下 就 不 能 简单 粗暴 的 使 用 二 进 制 比较 规则 了 ， 这 时 候 我 们 可 以 这 样 指 
定 比较 规则 : 


1. 将 两 个 大 小 写 不 同 的 字符 全 都 转 为 大 写 或 者 小 写 。 
2. 再 比较 这 两 个 字符 对 应 的 二 进 制 数据 。 


这 是 一 种 稍微 复杂 一 点 点 的 比较 规则 ， 但 是 实际 生活 中 的 字符 不 止 英文 字符 一 种 ， 比 如 我 们 的 汉字 有 几 万 之 多 ， 


对 于 某 一 种 字符 集 来 说 ， 比 较 两 个 字符 大 小 的 规则 可 以 制定 出 很 多 种 ， 也 就 是 说 同一 种 字符 集 可 以 有 多 种 比较 规 
则 ， 我 们 稍 后 就 要 介绍 各 种 现实 生活 中 用 的 字符 集 以 及 它们 的 一 些 比 较 规则 。 


3.1.3 一 些 重要 的 字符 集 


不 幸 的 是 ， 这 个 世界 太 大 了 ， 不 同 的 人 制定 出 了 好 多 种 字符 集 ， 它 们 表示 的 字符 范围 和 用 到 的 编码 规则 可 能 都 
不 一 样 。 我 们 看 一 下 一 些 常用 字符 集 的 情况 : 


。 ASCII 字符 集 


共 收 录 128 个 字符 ， 包 括 空 格 、 标 点 符号 、 数 字 、 大 小 写字 母 和 一 些 不 可 见 字符 。 由 于 总 共 才 128 个 字符 ， 所 
以 可 以 使 用 1 个 字 节 来 进行 编码 ， 我 们 看 一 些 字符 的 编码 方式 : 


”L” -> 01001100 (十 六 进 秆 
”M” -> 01001101 (十 六 进 秆 





76) 
77) 


| : Ox4C, 十 进 玮 
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上: 0x4D， 十 进 秆 
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IS0 8859-1 字符 集 


共 收 录 256 个 字符 ， 是 在 ASCII 字符 集 的 基础 上 又 扩充 了 128 个 西欧 常用 字符 (包括 德 法 两 国 的 字母 )， 也 可 以 
使 用 1 个 字 节 来 进行 编码 。 这 个 字符 集 也 有 一 个 别名 latinl 。 
GB2312 字符 集 


收录 了 汉字 以 及 拉丁 字母 、 希 腊 字 母 、 日 文平 假名 及 片 假名 字母 、 俄 语 西里 尔 字 母 。 其 中 收录 汉字 6763 个 ， 
其 他 文字 符号 682 个 。 同 时 这 种 字符 集 又 兼容 ASCII 字符 集 ， 所 以 在 编码 方式 上 显得 有 些 奇怪 : 

。 如 果 该 字符 在 ASCII 字符 集中 ， 则 采用 1 字 节 编码 。 

， 否则 采用 2 字 节 编码 。 





这 种 表示 一 个 字符 需要 的 字 节 数 可 能 不 同 的 编码 方式 称 为 变 长 编码 方式 。 比 方 说 字符 串 “ 爱 wu ， 其 
中 “ 爱 ” 需 要 用 2 个 字 节 进行 编码 ， 编 码 后 的 十 六 进 制 表示 为 0xCED2 ，“u ”需要 用 1 个 字 节 进行 编码 ， 
编码 后 的 十 六 进 制 表示 为 0x75 ， 所 以 拼合 起 来 就 是 0xCED275 。 


小 贴 士 : 

我 们 怎么 区 分 某 个 字 节 代表 一 个 单独 的 字符 还 是 代表 某 个 字符 的 一 部 分 呢 ? 别 筷 了 ASCII 字 
符 集 只 收录 128 个 字符 ， 使 用 0 一 127 就 可 以 表示 全 部 字符 ， 所 以 如 果 某 个 字 节 是 在 0 一 127 之 内 
的 ， 就 意味 着 一 个 字 节 代表 一 个 单独 的 字符 ， 否 则 就 是 两 个 字 节 代表 一 个 单独 的 字符 。 








































































































。 GBK 字符 集 


GBK 字符 集 只 是 在 收录 字符 范围 上 对 GB2312 字符 集 作 了 扩充 ， 编 码 方式 上 兼容 GB2312 。 
。 nutf8 字符 集 


收录 地 球 上 能 想到 的 所 有 字符 ， 而 且 还 在 不 断 扩 充 。 这 种 字符 集 兼 容 ASCII 字符 集 ， 采 用 变 长 编码 方式 ， 编 
码 一 个 字符 需要 使 用 1 ~ 4 个 字 节 ， 比 方 说 这 样 : 


"二 -> 01001100“〈 十 六 进 制 ;0x4C ) 
” 啊 ” 一 > ” ”111001011001010110001010 (十 六 进 制 ，0xE5958A) 








小 贴 士 : 

其 实 准 确 的 说 ，utf8 只 是 Unicode 字 符 集 的 一 种 编码 方案 ，Unicode 字 符 集 可 以 采用 utf8、utfl 
6、utf32 这 几 种 编码 方案 ，utf8 使 用 1 一 4 个 字 节 编码 一 个 字符 ，utf16 使 用 2 个 或 4 个 字 节 编码 一 个 
字符 ，utf32 使 用 4 个 字 节 编 码 一 个 字符 。 更 详细 的 Unicode 和 其 编码 方案 的 知识 不 是 本 书 的 重点 ， 
大 家 上 网 查 查 哈 一 









































































































































MySQL 中 并 不 区 分 字符 集 和 编码 方案 的 概念 ， 所 以 后 边 踪 叫 的 时 候 把 utf8、utfl16、utf32 都 当 作 
一 种 字符 集 对 待 。 














对 于 同一 个 字符 ， 不 同 字符 集 也 可 能 有 不 同 的 编码 方式 。 比 如 对 于 汉字 “我 ”来 说 ， ASCII 字符 集中 根本 没有 收 
录 这 个 字符 ， utf8 和 gb2312 字符 集 对 汉字 我 的 编码 方式 如 下 : 

















utf8 编 码 : 111001101000100010010001 (3 个 字 节 ， 十 六 进 制 表 示 是 : 0xE68891) 
gb2312 编 码 : 1100111011010010 (2 个 字 节 ， 十 六 进 制 表示 是 : 0xCED2) 



































3.2 MySQL 中 支持 的 字符 集 和 排序 规则 


3.2.1 MySQL 中 的 utf8 和 utf8mb4 


我 们 上 边 说 utf8 字符 集 表示 一 个 字符 需要 使 用 1 ~ 4 个 字 节 ， 但 是 我 们 常用 的 一 些 字符 使 用 1 ~ 3 个 字 节 就 可 以 表 
示 了 。 而 在 MySQL 中 字符 集 表示 一 个 字符 所 用 最 大 字 节 长 度 在 某 些 方面 会 影响 系统 的 存储 和 性 能 ， 所 以 设计 
MySQL 的 大 叔 偷偷 的 定义 了 两 个 概念 : 


。 utf8mb3 : 阅 割 过 的 utf8 字符 集 ， 只 使 用 1 ~ 3 个 字 节 表示 字符 。 
。 utf8mb4 : 正宗 的 utf8 字符 集 ， 使 用 1 ~ 4 个 字 节 表示 字符 。 


有 一 点 需要 大 家 十 分 的 注意 ， 在 MySQL 中 utf8 是 utf8mb3 的 别名 ， 所 以 之 后 在 MySQL 中 提 到 utf8 就 意味 着 使 
用 1~3 个 字 节 来 表示 一 个 字符 ， 如 果 大 家 有 使 用 4 字 节 编码 一 个 字符 的 情况 ， 比 如 存储 一 些 emoji 款 情 喻 的 ， 那 请 
使 用 utf8mb4 。 
3.2.2 字符 集 的 查看 
MySQL 支持 好 多 好 多 种 字符 集 ， 查 看 当前 MySQL 中 支持 的 字符 集 可 以 用 下 边 这 个 语句 : 

SHOW (CHARACTER SET|CHARSET) [LIKE 匹配 的 模式 ] ; 


其 中 CHARACTER SET 和 CHARSET 是 同义词 ， 用 任意 一 个 都 可 以 。 我 们 查询 一 下 (支持 的 字符 集 太 多 了 ， 我 们 省 略 
了 一 些 ) : 


mysql> SHOW CHARSET ; 





























Charset Description Default collation Maxlen 
big5 Big5 Traditional Chinese big5 chinese ci 2 
latinl cp1252 West European latinl swedish ci 1 
latin2 IS0 8859-2 Central European latin2 general ci 1 
ascii US ASCII ascii general ci 1 
gb2312 GB2312 Simplified Chinese gb2312_ chinese ci 2 
gbk GBK Simplified Chinese gbk_chinese ci 2 
latin5 ISO 8859-9 Turkish latin5 turkish ci 

utf8 UTF-8 Unicode utf8 general ci 3 
ucs2 UCS-2 Unicode UCcs2 general ci 2 
latin7 IS0 8859-13 Baltic latin7 general ci 1 
utf8mb4 UTF-8 Unicode utf8mb4 general ci 4 
utf16 UTF-16 Unicode utf16 general ci 4 
utfl6le UTF-16LE Unicode utfl6le general ci 4 
utf32 UTF-32 Unicode utf32 general ci 4 
binary Binary pseudo charset binary 1 
gb18030 China National Standard GB18030 | gb18030 chinese ci 4 





41 rows in set (0.01 sec) 


可 以 看 到 ， 我 使 用 的 这 个 MySQL 版 本 一 共 支 持 41 种 字符 集 ， 其 中 的 Default collation 列表 示 这 种 字符 集中 一 
种 默认 的 比较 规则 。 大 家 注意 返回 结果 中 的 最 后 一 列 Maxlen ， 它 代表 该 种 字符 集 表示 一 个 字符 最 多 需要 几 个 字 
节 。 为 了 让 大 家 的 印象 更 深刻 ， 我 把 几 个 常用 到 的 字符 集 的 Maxlen 列 摘抄 下 来 ， 大 家 务必 记 住 : 


字符 集 名 称 Maxlen 


ascii 1 
latinl 1 
gb2312 2 
gbk 2 
utf8 3 
utf8mb4 4 


3.2.3 比较 规则 的 查看 
查看 MySQL 中 支持 的 比较 规则 的 命令 如 下 : 


SHOW COLLATION [LIKE 匹配 的 模式 ] ; 





























我 们 前 边 说 过 一 种 字符 集 可 能 对 应 着 若干 种 比较 规则 ， MySQL 支持 的 字符 集 就 已 经 非常 多 了 ， 所 以 支持 的 比较 规 
则 更 多 ， 我 们 先 只 查看 一 下 utf8 字符 集 下 的 比较 规则 : 


mysql> SHOW COLLATION LIKE ’ utf8\ % ; 









































Collation Charset | Id Default | Compiled | Sortlen 
utf8 general ci utf8 33 | Yes Yes 1 
utf8 bin utf8 83 Yes 1 
utf8 unicode ci utf8 192 Yes 8 
utf8 icelandic ci utf8 193 Yes 8 
utf8 latvian ci utf8 194 Yes 8 
utf8 romanian ci utf8 195 Yes 8 
utf8 slovenian ci utf8 196 Yes 8 
utf8 polish ci utf8 197 Yes 8 
utf8 estonian ci utf8 198 Yes 8 
utf8 spanish ci utf8 199 Yes 8 
utf8 swedish ci utf8 200 Yes 8 
utf8 turkish ci utf8 201 Yes 8 
utf8 czech ci utf8 202 Yes 8 
utf8 danish ci utf8 203 Yes 8 
utf8 lithuanian ci utf8 204 Yes 8 
utf8 slovak ci utf8 205 Yes 8 
utf8 spanish2 ci utf8 206 Yes 8 
utf8 roman ci utf8 207 Yes 8 
utf8 persian ci utf8 208 Yes 8 
utf8 esperanto ci utf8 209 Yes 8 
utf8 hungarian ci utf8 210 Yes 8 
utf8 sinhala ci utf8 211 Yes 8 
utf8 german2 ci utf8 212 Yes 8 
utf8 croatian ci utf8 213 Yes 8 
utf8 unicode 520 ci utf8 214 Yes 8 
utf8 vietnamese ci utf8 215 Yes 8 
utf8 general mysql500 ci | utf8 223 Yes 1 











27 rows in set (0.00 sec) 
这 些 比较 规则 的 命名 还 挺 有 规律 的 ， 具 体 规律 如 下 : 


。 比较 规则 名 称 以 与 其 关联 的 字符 集 的 名 称 开 头 。 如 上 图 的 查询 结果 的 比较 规则 名 称 都 是 以 utf8 开头 的 。 

。 后 边 紧 跟着 该 比较 规则 主要 作用 于 哪 种 语言 ， 比 如 utf8_polish_ci 表示 以 波兰 语 的 规则 比较 ， 
utf8_spanish_ci 是 以 西班牙 语 的 规则 比较 ， utf8_general_ci 是 一 种 通用 的 比较 规则 。 

。 名 称 后 缀 意味 着 该 比较 规则 是 否 区 分 语言 中 的 重音 、 大 小 写 啥 的 ， 具 体 可 以 用 的 值 如 下 : 


| 后 绎 | 英文 释义 | 描述 | |:--:|:--:|:--:| | _ai | accent insensitive | 不 区 分 重音 | | as | accent sensitive | 区 分 重 
音 | | _ci | case insensitive | 不 区 分 大 小 写 | | cs | case sensitive | 区 分 大 小 写 | | bin | binary | 以 二 进 制 


方式 比较 | 
比如 utf8_general_ci 这 个 比较 规则 是 以 ci 结尾 的 ， 说 明 不 区 分 大 小 写 。 


每 种 字符 集 对 应 知 干 种 比较 规则 ， 每 种 字符 集 都 有 一 种 默认 的 比较 规则 ， SHOW COLLATION 的 返回 结果 中 的 
Default 列 的 值 为 YES 的 就 是 该 字符 集 的 默认 比较 规则 ， 比 方 说 utf8 字符 集 默 认 的 比较 规则 就 是 


utf8 general ci 。 


3.3 字符 集 和 比较 规则 的 应 用 





3.3.1 各 级 别 的 字符 集 和 比较 规则 
MySQL 有 4 个 级 别 的 字符 集 和 比较 规则 ， 分 别 是 : 


。 服务 器 级 别 
。 数据 库 级 别 
。 表 级别 
。 列 级 别 


我 们 接 下 来 仔细 看 一 下 怎么 设置 和 查看 这 几 个 级 别 的 字符 集 和 比较 规则 。 
3.3.1.1 服务 器 级 别 
MySQL 提供 了 两 个 系统 变量 来 表示 服务 器 级 别 的 字符 集 和 比较 规则 : 
系统 变量 描述 
character_set_server ”服务 器 级 别 的 字符 集 
collation_server 。 ”服务 器 级 别 的 比较 规则 
我 们 看 一 下 这 两 个 系统 变量 的 值 : 


mysql> SHOW VARIABLES LIKE ’ character set Server ; 





Variable name Value 





character set server | utf8 














1 row in set (0.00 sec) 


mysql> SHOW VARIABLES LIKE ’ collation server’; 





Variable name | Value 








collation server | utf8 general ci | 





1 row in set (0. 00 sec) 
可 以 看 到 在 我 的 计算 机 中 服务 器 级 别 默认 的 字符 集 是 utf8 ， 默 认 的 比较 规则 是 utf8_general_ci 。 


我 们 可 以 在 启动 服务 器 程序 时 通过 启动 选项 或 者 在 服务 器 程序 运行 过 程 中 使 用 SET 语句 修改 这 两 个 变量 的 值 。 比 
如 我 们 可 以 在 配置 文件 中 这 样 写 : 


[server] 
character_ set server=gbk 


collation server=gbk chinese ci 


当 服 务 器 启动 的 时 候 读 取 这 个 配置 文件 后 这 两 个 系统 变量 的 值 便 修 改 了 。 


3.3.1.2 数据 库 级 别 
我 们 在 创建 和 修改 数据 库 的 时 候 可 以 指定 该 数据 库 的 字符 集 和 比较 规则 ， 具 体 语法 如 下 : 


CREATE DATABASE 数据 库 名 
[ [DEFAULT] CHARACTER SET 字符 集 名称 ] 
[LIDEFAULT] COLLATE 比较 规则 名 称 ] ; 








ALTER DATABASE 数据 库 名 
[ [DEFAULT] CHARACTER SET 字符 集 名称 ] 
[LIDEFAULT] COLLATE 比较 规则 名 称 ] ; 








其 中 的 DEFAULT 可 以 省 略 ， 并 不 影响 语句 的 语义 。 比 方 说 我 们 新 创建 一 个 名 叫 charset_demo_db 的 数据 库 ， 在 创 
建 的 时 候 指 定 它 使 用 的 字符 集 为 gb2312 ， 比 较 规 则 为 gb2312_chinese ci : 


mysql> CREATE DATABASE charset demo db 
-> CHARACTER SET gb2312 
-> COLLATE gb2312 chinese ci; 
Query OK, 1 row affected (0.01 sec) 


如 果 想 查看 当前 数据 库 使 用 的 字符 集 和 比较 规则 ， 可 以 查看 下 面 两 个 系统 变量 的 值 (前 提 是 使 用 USE 语句 选择 当 
前 默认 数据 库 ， 如 果 没 有 默认 数据 库 ， 则 变量 与 相应 的 服务 器 级 系统 变量 具有 相同 的 值 ) : 


系统 变量 描述 
character_set_ database 当前 数据 库 的 字符 集 


collation database 当前 数据 库 的 比较 规则 
我 们 来 查看 一 下 刚刚 创建 的 charset_demo_db 数据 库 的 字符 集 和 比较 规则 : 


mysql> USE charset demo db; 
Database changed 


mysql> SHOW VARIABLES LIKE ’ character set database ; 





| Variable name Value | 








| character set database | gb2312 | 





1 row in set (0.00 sec) 


mysql> SHOW VARIABLES LIKE ’ collation database ; 





| Variable name Value 





| collation database | gb2312 chinese ci 











1 row in set (0. 00 sec) 


mysql> 


可 以 看 到 这 个 charset_demo_db 数据 库 的 字符 集 和 比较 规则 就 是 我 们 在 创建 语句 中 指定 的 。 需 要 注意 的 一 点 是 : 
character_set_database 和 collation_database 这 两 个 系统 变量 是 只 读 的 ， 我 们 不 能 通过 修改 这 两 个 变量 的 值 


而 改变 当前 数据 库 的 字符 集 和 比较 规则 。 
数据 库 的 创建 语句 中 也 可 以 不 指定 字符 集 和 比较 规则 ， 比 如 这 样 : 


CREATE DATABASE 数据 库 名 : 





这 样 的 话 将 使 用 服务 器 级 别 的 字符 集 和 比较 规则 作为 数据 库 的 字符 集 和 比较 规则 。 


3.3.1.3 表 级别 
我 们 也 可 以 在 创建 和 修改 表 的 时 候 指定 表 的 字符 集 和 比较 规则 ， 语 法 如 下 : 


CREATE TABLE 表 名 ( 列 的 信息 ) 
[ [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[COLLATE 比较 规则 名 称 ]] 











ALTER TABLE 表 名 
[ [DEFAULT] CHARACTER SET 字符 集 名称 ] 
[COLLATE 比较 规则 名 称 ] 


比方 说 我 们 在 刚刚 创建 的 charset_demo_db 数据 库 中 创建 一 个 名 为 t 的 表 ， 并 指定 这 个 表 的 字符 集 和 比较 规则 : 





mysql> CREATE TABLE t( 

-> col VARCHAR (10) 

-> ) CHARACTER SET utf8 COLLATE utf8 general ci; 
Query OK, 0 rows affected (0.03 sec) 


如 果 创 建 和 修改 表 的 语句 中 没有 指明 字符 集 和 比较 规则 ， 将 使 用 该 表 所 在 数据 库 的 字符 集 和 比较 规则 作为 该 表 的 
字符 集 和 比较 规则 。 假 设 我 们 的 创建 表 t 的 语句 是 这 么 写 的 : 


CREATE TABLE t( 
col VARCHAR (10) 
) ; 


因为 表 t 的 建 表 语句 中 并 没有 明确 指定 字符 集 和 比较 规则 ， 则 表 t 的 字符 集 和 比较 规则 将 继承 所 在 数据 库 
charset_demo_db 的 字符 集 和 比较 规则 ， 也 就 是 gp2312 和 gb2312 chinese ci 。 


3.3.1.4 列 级 别 


需要 注意 的 是 ， 对 于 存储 字符 串 的 列 ， 同 一 个 表 中 的 不 同 的 列 也 可 以 有 不 同 的 字符 集 和 比较 规则 。 我 们 在 创建 和 
修改 列 定义 的 时 候 可 以 指定 该 列 的 字符 集 和 比较 规则 ， 语 法 如 下 : 


CREATE TABLE 表 名 ( 
列 名 字符 串 类 型 [CHARACTER SET 字符 集 名 称 ] [COLLATE 比较 规则 名 称 ]， 
其 他 列 ... 

js 














ALTER TABLE 表 名 MODIFY 列 名 字符 串 类 型 [CHARACTER SET 字符 集 名 称 ] [COLLATE 比较 规则 名 称 ] : 





比如 我 们 修改 一 下 表 t 中 列 col 的 字符 集 和 比较 规则 可 以 这 么 写 : 


mysql> ALTER TABLE t MODIFY col VARCHAR(10) CHARACTER SET gbk COLLATE gbk chinese ci; 
Query OK，0 rows affected (0. 04 sec) 
Records: 0 Duplicates: 0 _ Warnings: 0 


mysql> 


对 于 某 个 列 来 说 ， 如 果 在 创建 和 修改 的 语句 中 没有 指明 字符 集 和 比较 规则 ， 将 使 用 该 列 所 在 表 的 字符 集 和 比较 规 
则 作为 该 列 的 字符 集 和 比较 规则 。 上 比方 说 表 t 的 字符 集 是 utf8 ， 比 较 规则 是 utf8_general_ ci， 修改 列 col 的 
语句 是 这 么 写 的 : 


ATLTRR TABILR t MODTFY col VARCHAR(10): 


那 列 col 的 字符 集 和 编码 将 使 用 表 t 的 字符 集 和 比较 规则 ， 也 就 是 utf8 和 utf8_general_ci 。 


小 贴 士 : 

在 转换 列 的 字符 集 时 需要 注意 ， 如 果 转 换 前 列 中 存储 的 数据 不 能 用 转换 后 的 字符 集 进行 表示 会 发 生 错 
误 。 比 方 说 原先 列 使 用 的 字符 集 是 utf8， 列 中 存储 了 一 些 汉字 ， 现 在 把 列 的 字符 集 转换 为 ascii 的 话 就 
会 出 错 ， 因 为 ascii 字 符 集 并 不 能 表示 汉字 字符 。 


































































































3.3.1.5 仅 修 改 字 符 集 或 仅 修 改 比较 规则 


由 于 字符 集 和 比较 规则 是 互相 有 联系 的 ， 如 果 我 们 只 修改 了 字符 集 ， 比 较 规则 也 会 跟着 变化 ， 如 果 只 修改 了 比较 
规则 ， 字 符 集 也 会 跟着 变化 ， 具 体 规则 如 下 : 


。 只 修改 字符 集 ， 则 比较 规则 将 变 为 修改 后 的 字符 集 默 认 的 比较 规则 。 
。 只 修改 比较 规则 ， 则 字符 集 将 变 为 修改 后 的 比较 规则 对 应 的 字符 集 。 


不 论 哪个 级 别 的 字符 集 和 比较 规则 ， 这 两 条 规则 都 适用 ， 我 们 以 服务 器 级 别 的 字符 集 和 比较 规则 为 例 来 看 一 下 详 
细 过 程 : 


。 只 修改 字符 集 ， 则 比较 规则 将 变 为 修改 后 的 字符 集 默 认 的 比较 规则 。 


mysql> SET character set Server = gb2312; 
Query OK, 0 rows affected (0. 00 sec) 


mysql> SHOW VARIABLES LIKE ’ character set server’; 





Variable name | Value | 








character set server | gb2312 | 





1 row in set (0.00 sec) 


mysql> SHOW VARIABLES LIKE ’ collation server ; 





Variable name Value | 











collation server | gb2312 chinese ci | 





1 row in set (0. 00 sec) 


我 们 只 修改 了 character set _ server 的 值 为 gb2312 ， collation server 的 值 自动 变 为 了 
gb2312 chinese ci 。 
。 只 修改 比较 规则 ， 则 字符 集 将 变 为 修改 后 的 比较 规则 对 应 的 字符 集 。 


mysql> SET collation server = utf8 general ci; 
Query OK, 0 rows affected (0. 00 sec) 


ysql> SHOW VARIABLES LIKE ’ character set server’; 





Variable name | Value | 





character set server | utf8 | 








1 row in set (0. 00 sec) 


ysql> SHOW VARIABLES LIKE "collation server’; 





Variable name Value 











collation server | utf8 general ci | 





1 row in set (0.00 sec) 


mysql> 


我 们 只 修改 了 collation server 的 值 为 utf8 general ci ， character set server 的 值 自动 变 为 了 
utf8 。 


3.3.1.6 各 级 别 字符 集 和 比较 规则 小 结 
我 们 介绍 的 这 4 个 级 别 字符 集 和 比较 规则 的 联系 如 下 : 


。 如 果 创 建 或 修改 列 时 没有 显 式 的 指定 字符 集 和 比较 规则 ， 则 该 列 默认 用 表 的 字符 集 和 比较 规则 
。 如 果 创 建 或 修改 表 时 没有 显 式 的 指定 字符 集 和 比较 规则 ， 则 该 表 上 默认 用 数据 库 的 字符 集 和 比较 规则 
。 如 果 创 建 或 修改 数据 库 时 没有 显 式 的 指定 字符 集 和 比较 规则 ， 则 该 数据 库 默 认 用 服务 器 的 字符 集 和 比较 规则 


知道 了 这 些 规则 之 后 ， 对 于 给 定 的 表 ， 我 们 应 该 知道 它 的 各 个 列 的 字符 集 和 比较 规则 是 什么 ， 从 而 根据 这 个 列 的 
类 型 来 确定 存储 数据 时 每 个 列 的 实际 数据 占用 的 存储 空间 大 小 了 。 比 方 说 我 们 向 表 t 中 插入 一 条 记录 : 


mysql> INSERT INTO t(col) VALUES ( 我 我 ) ; 
Query OK, 1 row affected (0. 00 sec) 


mysql> SELECT x*¥ FROM t; 
一 一 一 一 + 





1 row in set (0. 00 sec) 


首先 列 col 使 用 的 字符 集 是 gbk ， 一 个 字符 “我 ”在 gbk 中 的 编码 为 0xCED2 ， 占 用 两 个 字 节 ， 两 个 字符 的 实际 
数据 就 占用 4 个 字 节 。 如 果 把 该 列 的 字符 集 修改 为 utf8 的 话 ， 这 两 个 字符 就 实际 占用 6 个 字 节 啦 ~ 


3.3.2 客户 端 和 服务 器 通信 中 的 字符 集 


3.3.2.1 编码 和 解码 使 用 的 字符 集 不 一 致 的 后 果 


说 到 底 ， 字 符 串 在 计算 机 上 的 体现 就 是 一 个 字 节 串 ， 如 果 你 使 用 不 同 字符 集 去 解码 这 个 字 节 串 ， 最 后 得 到 的 结果 
可 能 让 你 挠 头 。 


我 们 知道 字符 “我 ”在 utf8 字符 集 编码 下 的 字 节 串 长 这 样 : 0xE68891 ， 如 果 一 个 程序 把 这 个 字 节 串 发 送 到 另 一 
个 程序 里 ， 另 一 个 程序 用 不 同 的 字符 集 去 解码 这 个 字 节 串 ， 假 设 使 用 的 是 gbk 字符 集 来 解释 这 串 字 节 ， 解 码 过 程 
就 是 这 样 的 : 


1. 首先 看 第 一 个 字 节 0xE6 ， 它 的 值 大 于 0x7F (十进制 : 127) ， 说 明 是 两 字 节 编码 ， 继 续 读 一 字 节 后 是 

0xE688 ， 然 后 从 gpk 编码 表 中 查找 字 节 为 0xE688 对 应 的 字符 ， 发 现 是 字符 ` 锦 " 
2. 继续 读 一 个 字 节 0x91 ， 它 的 值 也 大 于 0x7F ， 再 往 后 读 一 个 字 节 发 现 森 有 了 ， 所 以 这 是 半 个 字符 。 
3. 所 以 0xE68891 被 gpk 字符 集 解释 成 一 个 字符 " 忽 ” 和 半 个 字符 。 


假设 用 iso-8859-1 ， 也 就 是 latinl 字符 集 去 解释 这 串 字 节 ， 解 码 过 程 如 下 : 


1. 先 读 第 一 个 字 节 0xE6 ， 它 对 应 的 latinl 字符 为  。 
2. 再 读 第 二 个 字 节 0x88 ， 它 对 应 的 latinl 字符 为 。 
3. 再 读 第 二 个 字 节 0x91 ， 它 对 应 的 latinl 字符 为 “。 
4. 所 以 整 串 字 节 0xE68891 被 latinl 字符 集 解释 后 的 字符 串 就 是 "六 “ 


可 见 ， 如 果 对 于 同一 个 字符 串 编码 和 解码 使 用 的 字符 集 不 一 样 ， 会 产生 意 想 不 到 的 结果 ， 作 为 人 类 的 我 们 看 上 去 
就 像 是 产生 了 乱码 一 样 。 




















3.3.2.2 字符 集 转换 的 概念 


如 果 接 收 0xE68891 这 个 字 节 串 的 程序 按照 utf8 字符 集 进 行 解码 ， 然 后 又 把 它 按照 gbk 字符 集 进行 编码 ， 最 后 
编码 后 的 字 节 串 就 是 0xCED2 ， 我 们 把 这 个 过 程 称 为 字符 集 的 转换 ， 也 就 是 字符 串 “ 我 ”从 utf8 字符 集 转换 为 
gbk 字符 集 。 





3.3.2.3 MySQL 中 字符 集 的 转换 


我 们 知道 从 客户 端 发 往 服 务 器 的 请 求 本 质 上 就 是 一 个 字符 串 ， 服 务 器 向 客户 端 返回 的 结果 本 质 上 也 是 一 个 字符 
串 ， 而 字符 串 其 实 是 使 用 某 种 字符 集 编码 的 二 进 制 数据 。 这 个 字符 串 可 不 是 使 用 一 种 字符 集 的 编码 方式 一 条 道 走 
到 黑 的 ， 从 发 送 请 求 到 返回 结果 这 个 过 程 中 伴随 着 多 次 字符 集 的 转换 ， 在 这 个 过 程 中 会 用 到 3 个 系统 变量 ， 我 们 
先 把 它们 写 出 来 看 一 下 : 


系统 变量 描述 
character set client 服务 器 解码 请 求 时 使 用 的 字符 集 
character_set_connection ”服务 器 处 理 请 求 时 会 把 请 求 字 符 串 从 character_set_client 转 为 character_set _connection 
character set results 服务 器 向 客户 端 返回 数据 时 使 用 的 字符 集 


这 几 个 系统 变量 在 我 的 计算 机 上 的 默认 值 如 下 (不 同 操作 系统 的 默认 值 可 能 不 同 ) : 


mysql> SHOW VARIABLES LIKE ’ character set _ client ; 





Variable name 


Value 








character set _ client | utf8 











1 row in set (0.00 sec) 


mysql> SHOW VARIABLES LIKE ’ character set connection ; 





Variable name 


Value 








character set connection | utf8 











1 row in set (0.01 sec) 


mysql> SHOW VARIABLES LIKE ’ character set results’: 





Variable name 


Value 








character set results | utf8 











1 row in set (0. 00 sec) 


大 家 可 以 看 到 这 几 个 系统 变量 的 值 都 是 utf8 ， 


一 个 系统 变量 的 值 : 


mysql> set character set connection = gbk; 
Query OK, 0 rows affected (0.00 sec) 


所 以 现在 系统 变量 character set client 和 character set results 的 值 还 是 utf8 ， 而 


character set connection 的 值 为 gbk 。 


SELECT x* FROM t WHERE s = 我; 


为 了 方便 大 家 理解 这 个 过 程 ， 我 们 只 分 析 字 符 “ 我 在 
现在 看 一 下 在 请 求 从 发 送 至 


结果 返回 过 程 中 字符 集 的 变化 : 


1. 客户 端 发 送 请 求 所 使 用 的 字符 集 


一 般 情况 下 客户 端 所 使 用 的 字符 集 和 当前 操作 系统 一 致 ， 不 同 操作 系统 使 用 的 字符 集 可 能 不 一 样 ， 如 下 : 


。 类 Unix 系统 使 用 的 是 utf8 
Windows 使 用 的 是 gbk 


例如 我 在 使 用 的 mac0S 操作 系统 时 ， 
字 节 形式 就 是 : 0xE68891 


的 请 求 中 的 
小 贴 士 : 





如 果 你 使 月 











码 发 送 到 服务 





框框 哈 ) 。 











器 的 字符 串 ， 而 不 采用 操作 系统 默认 的 


的 是 可 视 化 工具 ， 比 如 navicat 之 类 的 ， 这 些 工 


现在 假设 我 们 客户 端 发 送 的 请 求 是 下 边 这 个 字符 串 : 


过 程 中 字符 集 的 转换 。 


客户 端 使 用 的 就 是 utf8 字符 集 。 所 以 字符 “我 ”在 发 送 给 服务 




















可 能 会 使 用 自 定 义 的 字符 集 来 编 














必 z 万 夺 和 
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字符 旨 
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《所 以 在 学 习 的 时 候 还 是 尽量 用 黑 





为 了 体现 出 字符 集 在 请 求 处 理 过 程 中 的 变化 ， 我 们 这 里 特意 修改 


器 


2. 服务 器 接收 到 客户 端 发 送 来 的 请 求 其 实 是 一 串 二 进 制 的 字 节 ， 它 会 认为 这 串 字 节 采 用 的 字符 集 是 
character set client ， 然 后 把 这 串 字 节 转 换 为 character_set_connection 字符 集 编码 的 字符 。 


由 于 我 的 计算 机 上 character set_client 的 值 是 utf8 ， 首 先 会 按照 utf8 字符 集 对 字 节 串 0xE68891 进行 
解码 ， 得 到 的 字符 串 就 是 "我 ”， 然 后 按照 character_set_connection 代表 的 字符 集 ， 也 就 是 gbk 进行 编 
码 ， 得 到 的 结果 就 是 字 节 串 0xCED2 。 

3. 因为 表 t 的 列 col 采用 的 是 gbk 字符 集 ， 与 character_set_connection 一 致 ， 所 以 直接 到 列 中 找 字 节 值 
为 0xCED2 的 记录 ， 最 后 找到 了 一 条 记录 。 




















小 贴 士 : 
如 果 某 个 列 使 用 的 字符 集 和 character_set_connection 代 表 的 字符 集 不 一 致 的 话 ， 还 需要 进行 一 
次 字符 集 转换 。 


4. 上 一 步骤 找到 的 记录 中 的 col 列 其 实 是 一 个 字 节 串 0xCED2 ， col 列 是 采用 gbk 进行 编码 的 ， 所 以 首先 会 将 
这 个 字 节 串 使 用 gbk 进行 解码 ， 得 到 字符 串 “我 ”， 然 后 再 把 这 个 字符 串 使 用 character_set_results 代表 
的 字符 集 ， 也 就 是 utf8 进行 编码 ， 得 到 了 新 的 字 节 串 : 0xE68891 ， 然 后 发 送 给 客户 端 。 

5. 由 于 客户 端 是 用 的 字符 集 是 utf8 ， 所 以 可 以 顺利 的 将 0xE68891 解释 成 字符 我 ， 从 而 显示 到 我 们 的 显示 器 
上 ， 所 以 我 们 人 类 也 读 懂 了 返回 的 结果 。 





如 果 你 读 上 边 的 文字 有 点 旺 ， 可 以 参照 这 个 图 来 仔细 分 析 一 下 这 几 个 步骤 : 
服务 器 处 理 过 程 





/NN 
(O) 
从 character set client 转换 为 
character set_connection | 
/NN 
(3) 


从 character set_connection 


客户 端 转换 为 具体 的 列 使 用 的 字符 集 
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SEE 
将 查询 结果 从 具体 的 列 使 用 的 字符 集 


转换 为 character_set_results 
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从 这 个 分 析 中 我 们 可 以 得 出 这 么 几 点 需要 注意 的 地 方 : 

。 服务 器 认为 客户 端 发 送 过 来 的 请 求 是 用 character_set_client 编码 的 。 
假设 你 的 客户 端 采 用 的 字符 集 和 character_set_client 不 一 样 的 话 ， 这 就 会 出 现 意 想 不 到 的 情况 。 比 如 我 的 
客户 端 使 用 的 是 utf8 字符 集 ， 如 果 把 系统 变量 character_set_client 的 值 设置 为 ascii 的 话 ， 服 务 器 可 
能 无 法 理解 我 们 发 送 的 请 求 ， 更 别 谈 处 理 这 个 请 求 了 。 
服务 器 将 把 得 到 的 结果 集 使 用 character_ set _results 编码 后 发 送 给 客户 端 。 


假设 你 的 客户 端 采用 的 字符 集 和 character_set_results 不 一 样 的话 ， 这 就 可 能 会 出 现 客户 端 无 法 解码 结果 
集 的 情况 ， 结 果 就 是 在 你 的 屏幕 上 出 现 乱 码 。 比 如 我 的 客户 端 使 用 的 是 utf8 字符 集 ， 如 果 把 系统 变量 
character_set_results 的 值 设 置 为 ascii 的 话 ， 可 能 会 产生 乱码 。 

character_set_connection 只 是 服务 器 在 将 请 求 的 字 节 串 从 character set_client 转换 为 
character_set_connection 时 使 用 ， 它 是 什么 其 实 没 多 重要 ， 但 是 一 定 要 注意 ， 该 字符 集 包含 的 字符 范围 
一 定 涵盖 请 求 中 的 字符 ， 要 不 然 会 导致 有 的 字符 无 法 使 用 character_set_connection 代表 的 字符 集 进行 编 


码 。 比 如 你 把 character_set_client 设置 为 utf8 ， 把 character set connection 设置 成 ascii ， 那 么 此 
时 你 如 果 从 客户 端 发 送 一 个 汉字 到 服务 器 ， 那 么 服务 器 无 法 使 用 ascii 字符 集 来 编码 这 个 汉字 ， 就 会 向 用 户 


发 出 一 个 警告 
知道 了 在 MySQL 中 从 发 送 请 求 到 返回 结果 过 程 里 发 生 的 各 种 字符 集 转换 ， 但 是 为 哈 要 转 来 转 去 的 呢 ? 不 晕 么 ? 


答 : 是 的 ， 很 头晕 ， 所 以 我 们 通常 都 把 character_set client、character_set_connection.、 
character_set_results 这 三 个 系统 变量 设置 成 和 客户 端 使 用 的 字符 集 一 致 的 情况 ， 这 样 碱 少 了 很 多 无 谓 的 字符 
集 转换 。 为 了 方便 我 们 设置 ， MySQL 提供 了 一 条 非常 简便 的 语句 : 


SET NAMES 字符 集 名 :; 





这 一 条 语句 产生 的 效果 和 我 们 执行 这 3 条 的 效果 是 一 样 的 : 





SET character set client = 字符 集 和 名 


En 


SET character set connection = 字符 集 名 ; 


法: 不 佳 


SET character set results = 字符 集 名 ; 





比方 说 我 的 客户 端 使 用 的 是 utf8 字符 集 ， 所 以 需要 把 这 几 个 系统 变量 的 值 都 设置 为 utf8 : 


mysql> SET NAMES utf8; 
Query OK, 0 rows affected (0.00 sec) 


mysql> SHOW VARIABLES LIKE ’ character set client’; 





Variable name Value 





character set client | utf8 











| 
1 row in set (0. 00 sec) 


mysql> SHOW VARIABLES LIKE "character set connection’ ; 





Variable name Value | 











| character set connection | utf8 | 
1 row in set (0. 00 sec) 


mysql> SHOW VARIABLES LIKE ’ character set _ results ” ; 





Variable name Value 





character set results | utf8 











| 
1 row in set (0. 00 sec) 


mysql> 


小 贴 士 : 
如 果 你 使 用 的 是 Windows 系 统 ， 那 应 该 设置 成 gbk。 








另外 ， 如 果 你 想 在 启动 客户 端的 时 候 就 把 character set client 、 character set connection 、 
character_set_results 这 三 个 系统 变量 的 信 没 置 成 一 样 的 ， 那 我 们 可 以 在 启动 客户 端的 时 候 指定 一 个 叫 
default-character-set 的 启动 选项 ，H 如 在 配置 文件 里 可 以 议 入 写 : 


-一 一 一 一 - - -一 -一 - -~-- 一 - -mr 王 一 -=- 玫 1 一 rm 一- 盖 --- 一 一 ~ 一 一 ~ -一 < 一 一- 


[client] 
default-character-set=utf8 


它 起 到 的 效果 和 执行 一 遍 SET NAMES utf8 是 一 样 一 样 的 ， 都 会 将 那 三 个 系统 变量 的 值 设 置 成 utf8 。 


3.3.3 比较 规则 的 应 用 


结束 了 字符 集 的 漫游 ， 我 们 把 视角 再 次 聚焦 到 比较 规则 ， 比较 规则 的 作用 通常 体现 比较 字符 串 大 小 的 表达 式 以 
及 对 某 个 字符 串 列 进行 排序 中 ， 所 以 有 时 候 也 称 为 排序 规则 。 比 方 说 表 t 的 列 col 使 用 的 字符 集 是 gbk ， 使 用 
的 比较 规则 是 gbk_chinese_ci ， 我 们 向 里 边 插 入 几 条 记录 : 


mysql> INSERT INTO t(col) VALUESC a ), Cb ), (CA), CB):; 
Query OK, 4 rows affected (0. 00 sec) 
Records: 4 Duplicates: 0 VWarnings: 0 


mysql> 
我 们 查询 的 时 候 按 照 t 列 排序 一 下 : 


mysql> SELECT x*¥ FROM t ORDER BY col ; 





col 





Se 











5 rows in set (0.00 sec) 


可 以 看 到 在 默认 的 比较 规则 gbk_chinese_ci 中 是 不 区 分 大 小 写 的 ， 我 们 现在 把 列 col 的 比较 规则 修改 为 
gbk bin : 


mysql> ALTER TABLE t MODIFY col VARCHAR(10) COLLATE gbk _ bin; 
Query OK，5 rows affected (0. 02 sec) 
Records: 5 Duplicates: 0 _ Warnings: 0 


由 于 gbk_bin 是 直接 比较 字符 的 编码 ， 所 以 是 区 分 大 小 写 的， 我 们 再 看 一 下 排序 后 的 查询 结果 : 


mysql> SELECT x* FROM t ORDER BY s; 








pes 











5 rows in set (0.00 sec) 


mysql> 


所 以 如 果 以 后 大 家 在 对 字符 串 做 比较 或 者 对 某 个 字符 串 列 做 排序 操作 时 没有 得 到 想象 中 的 结果 ， 需 要 思考 一 下 是 
不 是 比较 规则 的 问题 ~ 


小 贴 士 : 

列 col 中 各 个 字符 在 使 用 gbk 字 符 集 编码 后 对 应 的 数字 如 下 : 
"A” ->65 十进制 ) 

"B”-> 66 十进制) 

”a” ->》97 十进制) 

'b”->98 十进制 》 

:我 ”-> 25105 十进制》 



























































3.4 总 结 


1. 字符 集 指 的 是 某 个 字符 范围 的 编码 规则 。 

2， 比 较 规 则 是 针对 某 个 字符 集中 的 字符 比较 大 小 的 一 种 规则 。 

3. 在 MySQL 中 ， 一 个 字符 集 可 以 有 若干 种 比较 规则 ， 其 中 有 一 个 默认 的 比较 规则 ， 一 个 比较 规则 必须 对 应 一 个 
字符 集 。 

4. 查看 MySQL 中 查看 支持 的 字符 集 和 比较 规则 的 语句 如 下 : 


SHOW (CHARACTER SET|CHARSET) [LIKE 匹配 的 模式 ] ; 
SHOW COLLATION [LIKE 匹配 的 模式 ] ; 












































5. MySQL 有 四 个 级 别 的 字符 集 和 比较 规则 
。 服务 器 级 别 


character set _server 表示 服务 器 级 别 的 字符 集 ， collation server 表示 服务 器 级 别 的 比较 规则 。 
。 数据 库 级 别 


创建 和 修改 数据 库 时 可 以 指定 字符 集 和 比较 规则 : 


CREATE DATABASE 数据 库 名 
[ [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[[DEFAULT] COLLATE 比较 规则 名 称 ] ; 











ALTER DATABASE 数据 库 名 
[ [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[[DEFAULT] COLLATE 比较 规则 名 称 ] ; 











character set database 表示 当前 数据 库 的 字符 集 ， collation database 表示 当前 默认 数据 库 的 比较 
规则 ， 这 两 个 系统 变量 是 只 读 的 ， 不 能 修改 。 如 果 没 有 指定 当前 默认 数据 库 ， 则 变量 与 相应 的 服务 器 级 
系统 变量 具有 相同 的 值 。 

。 表 级 别 


创建 和 修改 表 的 时 候 指定 表 的 字符 集 和 比较 规则 : 


CREATE TABLE 表 名 ( 列 的 信息 ) 
[ [DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[COLLATE 比较 规则 名 称 ]] ; 








ALTER TABLE 表 名 
[[DEFAULT] CHARACTER SET 字符 集 名 称 ] 
[COLLATE 比较 规则 名 称 ] ; 





。 列 级 别 


创建 和 修改 列 定义 的 时 候 可 以 指定 该 列 的 字符 集 和 比较 规则 : 


CREATE TABLE 表 名 ( 
列 名 字符 串 类 型 [CHARACTER SET 字符 集 名 称 ] [COLLATE 比较 规则 名 称 ]， 
二 他 列 . .. 

















) ; 





ALTER TABLE 表 名 MODIFY 列 名 字符 串 类 型 [CHARACTER SET 字符 集 名 称 ] [COLLATE 比较 规 
则 名 称 ] ; 


6. 从 发 送 请 求 到 接收 结果 过 程 中 发 生 的 字符 集 转换 : 


。 客户 端 使 用 操作 系统 的 字符 集 编 码 请 求 字符 串 ， 向 服务 器 发 送 的 是 经 过 编码 的 一 个 字 节 串 。 

服务 器 将 客户 端 发 送 来 的 字 节 串 采用 character_set_client 代表 的 字符 集 进行 解码 ， 将 解码 后 的 字符 

串 再 按照 character_set_connection 代表 的 字符 集 进 行 编码 。 

如 果 character_set_connection 代表 的 字符 集 和 具体 操作 的 列 使 用 的 字符 集 一 致 ， 则 直接 进行 相应 操 

作 ， 否 则 的 话 需要 将 请 求 中 的 字符 串 从 character_set_connection 代表 的 字符 集 转换 为 具体 操作 的 列 

使 用 的 字符 集 之 后 再 进行 操作 。 

。 将 从 某 个 列 获 取 到 的 字 节 串 从 该 列 使 用 的 字符 集 转换 为 character_set_results 代表 的 字符 集 后 发 送 到 
客户 端 。 

。 客户 端 使 用 操作 系统 的 字符 集 解 析 收 到 的 结果 集 字 节 串 。 


在 这 个 过 程 中 各 个 系统 变量 的 含义 如 下 : 


| 系统 变量 | 描述 | |:--:|:--:| | character_set_client | 服务 器 解码 请 求 时 使 用 的 字符 集 | 
| character_set_connection | 服务 器 处 理 请 求 时 会 把 请 求 字 符 串 从 character_set_client 转 为 
character_set connection | | character_set_results | 服务 器 向 客户 端 返回 数据 时 使 用 的 字符 集 | 


一 般 情况 下 要 使 用 保持 这 三 个 变量 的 值 和 客户 端 使 用 的 字符 集 相同 。 
7. 比较 规则 的 作用 通常 体现 比较 字符 串 大 小 的 表达 式 以 及 对 某 个 字符 串 列 进行 排序 中 。 





4 第 4 章 从 一 条 记录 说 起 -InnoDB 记 录 结 构 


标签 : _ MySQL 是 怎样 运行 的 


4.1 准备 工作 


到 现在 为 止 ， MySQL 对 于 我 们 来 说 还 是 一 个 黑 盒 ， 我 们 只 负责 使 用 客户 端 发 送 请 求 并 等 待 服务 器 返回 结果 ， 表 中 
的 数据 到 底 存 到 了 哪里 ? 以 什么 格式 存放 的 ? MySQL 是 以 什么 方式 来 访问 的 这 些 数 据 ? 这 些 问题 我 们 统统 不 知 
道 ， 对 于 未 知 领域 的 探索 向 来 就 是 社会 主义 核心 价值 观 中 的 一 部 分 ， 作 为 新 一 代 社 会 主义 接班 人 ， 不 把 它们 搞 懂 
怎么 支援 祖国 建设 呢 ? 


我 们 前 边 踪 骨 请 求 处 理 过 程 的 时 候 提 到 过 ， MySQL 服务 器 上 负责 对 表 中 数据 的 读 取 和 写 入 工作 的 部 分 是 存储 引 
擎 ， 而 服务 器 又 支持 不 同类 型 的 存储 引擎 ， 比 如 InnoDB 、 MyISAM 、 Memory 喻 的 ， 不 同 的 存储 引擎 一 般 是 
不 同 的 人 为 实现 不 同 的 特性 而 开发 的 ， 真 实数 据 在 不 同 存储 引擎 中 存放 的 格式 一 般 是 不 同 的 ， 甚 至 有 的 存储 引擎 
比如 Memory 都 不 用 磁盘 来 存储 数据 ， 也 就 是 说 关闭 服务 器 后 表 中 的 数据 就 消失 了 。 由 于 InnoDB 是 MySQL 默认 
的 存储 引擎， 也 是 我 们 最 常用 到 的 存储 引擎， 我 们 也 没有 那么 多 时 间 去 把 各 个 存储 引擎 的 内 部 实现 都 看 一 遍 ， 所 
以 本 集 要 路 明 的 是 使 用 InnoDB 作为 存储 引擎 的 数据 存储 结构 ， 了 解 了 一 个 存储 引擎 的 数据 存储 结构 之 后 ， 其 他 
的 存储 引擎 都 是 依 葫芦 男 球 ， 等 我 们 用 到 了 再 说 哈 ~ 


4.2 InnoDB 页 简介 


InnoDB 是 一 个 将 表 中 的 数据 存储 到 磁盘 上 的 存储 引擎 ， 所 以 即使 关机 后 重启 我 们 的 数据 还 是 存在 的 。 而 真正 处 
理 数据 的 过 程 是 发 生 在 内 存 中 的 ， 所 以 需要 把 磁盘 中 的 数据 加 载 到 内 存 中 ， 如 果 是 处 理 写 入 或 修改 请 求 的 话 ， 还 
需要 把 内 存 中 的 内 容 刷新 到 磁盘 上 。 而 我 们 知道 读 写 磁 盘 的 速度 非常 慢 ， 和 内 存 读 写 差 了 几 个 数量 级 ， 所 以 当 我 
们 想 从 表 中 获取 某 些 记录 时 ， InnoDB 存储 引擎 需要 一 条 一 条 的 把 记录 从 磁盘 上 读 出 来 么 ” 不， 那样 会 慢 死 ， 
InnoDB 采取 的 方式 是 : 将 数据 划分 为 若干 个 页 ， 以 页 作为 磁盘 和 内 存 之 间 交 互 的 基本 单位 ，InnoDB 中 页 的 大 小 
一 般 为 16 KB。 也 就 是 在 一 般 情 况 下 ， 一 次 最 少 从 磁盘 中 读 取 16KB 的 内 容 到 内 存 中 ， 一 次 最 少 把 内 存 中 的 16KB 
内 容 刷 新 到 磁盘 中 。 


4.3 InnoDB 行 格式 


我 们 平时 是 以 记录 为 单位 来 向 表 中 插入 数据 的 ， 这 些 记录 在 磁盘 上 的 存放 方式 也 被 称 为 行 格式 或 者 记录 格式 。 
设计 InnoDB 存储 引擎 的 大 叔 们 到 现在 为 止 设计 了 4 种 不 同类 型 的 行 格 式 ， 分 别 是 Compact 、 Redundant 、 
Dynamic 和 Compressed 行 格式 ， 随 着 时 间 的 推移 ， 他 们 可 能 会 设计 出 更 多 的 行 格式 ， 但 是 不 管 怎么 变 ， 在 原理 
上 大 体 都 是 相同 的 。 


4.3.1 指定 行 格式 的 语 ; 

我 们 可 以 在 创建 或 修改 表 的 语句 中 指定 行 格 式 : 
CREATE TABLE 表 名 ( 列 的 信息 ) ROW FORMAT= 行 格式 名 称 
ALTER TABLE 表 名 ROW FORMAT= 行 格式 名 称 


比如 我 们 在 xiaohaizi 数据 库 里 创建 一 个 演示 用 的 表 record_format_demo ， 可 以 这 样 指定 它 的 行 格式 : 


mysql> USE xiaohaizi; 
Database changed 


mysql> CREATE TABLE record format demo ( 
-> cl VARCHAR(10), 
三 c2 VARCHAR(10) NOT NULL, 
> c3 CHAR(10), 
-> c4 VARCHAR(10) 
-> ) CHARSET=ascii ROW FORMAT=COMPACT:; 
Query OK, 0 rows affected (0.03 sec) 


可 以 看 到 我 们 刚刚 创建 的 这 个 表 的 行 格式 就 是 Compact ， 另外， 我 们 还 显 式 指定 了 这 个 表 的 字符 集 为 ascii ， 
因为 ascii 字符 集 只 包括 空格 、 标 点 符号 、 数 字 、 大 小 写字 母 和 一 些 不 可 见 字符 ， 所 以 我 们 的 汉字 是 不 能 存 到 这 
个 表 里 的 。 我 们 现在 向 这 个 表 中 插入 两 条 记录 : 


mysql> INSERT INTO record format demo(cl, c2, c3, c4) VALUES( aaaa ， ”bbb ， "cc ， d)， 
(eeee’, fff ，NULL，NULL) ; 

Query OK，2 rows affected (0. 02 sec) 

Records: 2 Duplicates: 0 _ Warnings: 0 


现在 表 中 的 记录 就 是 这 个 样子 的 : 


mysql> SELECT x*¥ FROM record format demo; 





cl 记忆 c3 | c4 





aaaa | bbb | cc | d 
eeee | fff | NULL | NULL 

















2 rows in set (0. 00 sec) 


mysql> 


演示 表 的 内 容 也 填充 好 了 ， 现 在 我 们 就 来 看 看 各 个 行 格式 下 的 存储 方式 到 底 有 了 哗 不同 吧 ~ 


4.3.2 COMPACT 行 格式 
废话 不 多 说 ， 直 接 看 图 : 


Compact 行 格式 示意 图 


记录 的 额外 信息 记录 的 真实 数据 





变 长 字段 长 度 列表 “NULL 值 列表 记录 头 信息 。 列 1 的 值 ” 列 2 的 值 


大 家 从 图 中 可 以 看 出 来 ， 一 条 完整 的 记录 其 实 可 以 被 分 为 记录 的 额外 信息 和 记录 的 真实 数据 两 大 部 分 ， 下 边 我 
们 详细 看 一 下 这 两 部 分 的 组 成 。 





4.3.2.1 记录 的 额外 信息 


这 部 分 信息 是 服务 器 为 了 描述 这 条 记录 而 不 得 不 额外 添加 的 一 些 信息 ， 这 些 额 外 信息 分 为 3 类 ， 分 别 是 变 长 字段 
长 度 列表 、 NULL 值 列表 和 记录 头 信息 ， 我 们 分 别 看 一 下 。 


人 要 友 完 狠 友 度 列 责 

我 们 知道 MySQL 支持 一 些 变 长 的 数据 类 型 ， 比 如 VARCHAR (M) 、 VARBINARY (M) 、 各 种 TEXT 类 型 ， 各 种 BLOB 类 
型 ， 我 们 也 可 以 把 拥有 这 些 数 据 类 型 的 列 称 为 变 长 字段 ， 变 长 字段 中 存储 多 少 字 节 的 数据 是 不 固定 的 ， 所 以 我 
们 在 存储 真实 数据 的 时 候 需 要 顺便 把 这 些 数据 占用 的 字 节 数 也 存 起 来 ， 这 样 才 不 至 于 把 MySQL 服务 器 搞 懂 ， 所 以 
这 些 变 长 字段 占用 的 存储 空间 分 为 两 部 分 : 


1. 真正 的 数据 内 容 
2. 占用 的 字 节 数 


在 Compact 行 格式 中 ， 把 所 有 变 长 字段 的 真实 数据 占用 的 字 节 长 度 都 存放 在 记录 的 开头 部 位 ， 从 而 形成 一 个 变 长 
字段 长 度 列表 ， 各 变 长 字段 数据 占用 的 字 节 数 按照 列 的 顺序 逆序 人 存放， 我 们 再 次 强调 一 遍 ， 是 逆序 存放 ! 


我 们 拿 record format demo 表 中 的 第 一 条 记录 来 举 个 例子 。 因 为 record format demo 表 的 cl 、 c2 、 c4 列 
都 是 VARCHAR (10) 类 型 的 ， 也 就 是 变 长 的 数据 类 型 ， 所 以 这 三 个 列 的 值 的 长 度 都 需要 保存 在 记录 开头 处 ， 因 为 
record_format_demo 表 中 的 各 个 列 都 使 用 的 是 ascii 字符 集 ， 所 以 每 个 字符 只 需要 1 个 字 节 来 进行 编码 ， 来 看 
一 下 第 一 条 记录 各 变 长 字段 内 容 的 长 度 : 


列 名 存储 内 容 内容 长 度 (十 进 制 表示 ) ”内 容 长 度 (十 六 进 制 表示 ) 


cl ” aaaa 4 0x04 
c2 ”bbb’ 3 0x03 
c4 "让 1 0x01 


又 因为 这 些 长 度 值 需要 按照 列 的 逆序 存放 ， 所 以 最 后 变 长 字段 长 度 列 表 的 字 节 串 用 十 六 进 制 表示 的 效果 就 是 
(各 个 字 节 之 间 实 际 上 没有 空格 ， 用 空格 隔 开 只 是 方便 理解 ) : 


01 03 04 


把 这 个 字 节 串 组 成 的 变 长 字段 长 度 列表 填 入 上 边 的 示意 图 中 的 效果 就 是 : 


记录 的 额外 信息 记录 的 真实 数据 





第 1 条 记录 的 存储 格式 : 01 03 04 NULL 值 列表 “记录 头 信息 。 列 1 的 值 ” 列 2 的 值 5 列 n 的 值 


由 于 第 一 行 记录 中 cl 、 “2 、 c4 列 中 的 字符 串 都 比较 短 ， 也 就 是 说 内 容 占用 的 字 节 数 比较 小 ， 用 1 个 字 节 就 可 
以 表示 ,但 是 如 果 变 长 列 的 内 容 占用 的 字 节 数 比较 多 ， 可 能 就 需要 用 2 个 字 节 来 表示 。 具 体 用 1 个 还 是 2 个 字 节 来 
表示 真实 数据 占用 的 字 节 数 ， InnoDB 有 它 的 一 套 规 则 ， 我 们 首先 声明 一 下 W 、 M 和 的 意思 : 


1. 假设 某 个 字符 集中 表示 一 个 字符 最 多 需要 使 用 的 字 节 数 为 W， 也 就 是 使 用 SHOW CHARSET 语句 的 结果 中 的 
Maxlen 列 ， 比 方 说 utf8 字符 集中 的 W 就 是 3 ， gbk 字符 集中 的 W 就 是 2 ， ascii 字符 集中 的 W 就 是 
] 。 

2. 对 于 变 长 类 型 VARCHAR (M) 来 说 ， 这 种 类 型 表示 能 存储 最 多 M 个 字符 (注意 是 字符 不 是 字 节 ) ， 所 以 这 个 类 
型 能 表示 的 字符 串 最 多 占用 的 字 节 数 就 是 MXW 。 

3. 假设 它 实 际 存储 的 字符 串 占 用 的 字 节 数 是 L 。 


所 以 确定 使 用 1 个 字 节 还 是 2 个 字 节 表示 真正 字符 串 占用 的 字 节 数 的 规则 就 是 这 样 : 
。 如 果 MXW《= 255 ， 那 么 使 用 1 个 字 节 来 表示 真正 字符 串 占用 的 字 节 数 。 


也 就 是 说 InnoDB 在 读 记录 的 变 长 字段 长 度 列 表 时 先 查 看 表 结 构 ， 如 果 某 个 变 长 字段 允许 存储 的 最 
大 字 节 数 不 大 于 255 时 ， 可 以 认为 只 使 用 1 个 字 节 来 表示 真正 字符 串 占 用 的 字 节 数 。 























。 如 果 MXW >255 ， 则 分 为 两 种 情况 : 
， 如 果 L 《= 127 ， 则 用 1 个 字 节 来 表示 真正 字符 串 占用 的 字 节 数 。 
”如 果 >127 ， 则 用 2 个 字 节 来 表示 真正 字符 串 占用 的 字 节 数 。 


InnoDB 在 读 记录 的 变 长 字段 长 度 列表 时 先 查看 表 结构 ， 如 果 某 个 变 长 字段 允许 存储 的 最 大 字 节 
数 大 于 255 时 ， 该 怎么 区 分 它 正在 读 的 某 个 字 节 是 一 个 单独 的 字段 长 度 还 是 半 个 字段 长 度 呢 ? 
设计 InnoDB 的 大 权 使 用 该 字 节 的 第 一 个 二 进 制 位 作为 标志 位 ， 如 果 该 字 节 的 第 一 个 位 为 0， 屠 
该 字 节 就 是 一 个 单独 的 字段 长 度 〈 使 用 一 个 字 节 表 示 不 大 于 127 的 二 进 制 的 第 一 个 位 都 为 0) ， 
如 果 该 字 节 的 第 一 个 位 为 1， 那 该 字 节 就 是 半 个 字段 长 度 。 





































































































对 于 一 些 占 用 字 节 数 非 常 多 的 字段 ， 比 方 说 某 个 字段 长 度 大 于 了 16KB， 那 么 如 果 该 记录 在 单个 
页 面 中 无 法 存储 时 ，InnoDB 会 把 一 部 分 数据 存放 到 所 谓 的 溢出 页 中 《我 们 后 边 会 路 胃 ) ， 在 变 
长 字段 长 度 列 表 处 只 存储 留 在 本 页 面 中 的 长 度 ， 所 以 使 用 两 个 字 节 也 可 以 存放 下 来 。 
































总 结 一 下 就 是 说 : 如 果 该 可 变 字段 允许 存储 的 最 大 字 节 数 ( MXW ) 超过 255 字 节 并 且 真 实 人 存储 的 字 节 数 (L ) 
超过 127 字 节 ， 则 使 用 2 个 字 节 ， 否 则 使 用 1 个 字 节 。 


另外 需要 注意 的 一 点 是 ， 变 长 字段 长 度 列 表 中 只 存储 值 为 $ANULL 的 列 内 容 占用 的 长 度 ， 值 为 NULL 的 列 的 长 度 
是 不 储存 的 。 也 就 是 说 对 于 第 二 条 记录 来 说 ， 因 为 c4 列 的 值 为 NULL ， 所 以 第 二 条 记录 的 变 长 字段 长 度 列 表 只 
需要 存储 cl 和 c2 列 的 长 度 即 可 。 其 中 cl 列 存储 的 值 为 “eeee”， 占 用 的 字 节 数 为 4 ， c2 列 存储 的 值 

为 ”fff ， 占 用 的 字 节 数 为 3 。 数 字 4 可 以 用 1 个 字 节 表示 ， 3 也 可 以 用 1 个 字 节 表示 ， 所 以 整个 变 长 字段 长 度 
列表 共 需 2 个 字 节 。 填 充 完 变 长 字段 长 度 列 表 的 两 条 记录 的 对 比 图 如 下 : 





记录 的 额外 信息 记录 的 真实 数据 





第 1 条 记录 的 存储 格式 : 01 03 04 NULL 值 列表 ”记录 头 信 息 。 列 1 的 值 ” 列 2 的 值 


第 2 条 记录 的 存储 格式 : NULL 值 列表 “记录 头 信 息 。 列 1 的 值 ” 列 2 的 值 ‘os 列 n 的 值 





小 贴 士 : 
并 不 是 所 有 记录 都 有 这 个 变 长 字段 长 度 列表 部 分 ， 比 方 说 表 中 所 有 的 列 都 不 是 变 长 的 数据 类 型 的 话 ， 
这 一 部 分 就 不 需要 有 。 





NULL 仿 列 汞 


我 们 知道 表 中 的 某 些 列 可 能 存储 NULL 值 ， 如 果 把 这 些 NULL 值 都 放 到 记录 的 真实 数据 中 存储 会 很 占 地方 ， 所 
以 Compact 行 格式 把 这 些 值 为 NULL 的 列 统一 管理 起 来 ， 存 储 到 NULL 值 列表 中 ， 它 的 处 理 过程 是 这 样 的 : 


1. 首先 统计 表 中 人 允许 存储 NULL 的 列 有 哪些 。 


我 们 前 边 说 过 ， 主 键 列 、 被 NOT NULL 修饰 的 列 都 是 不 可 以 存储 NULL 值 的 ， 所 以 在 统计 的 时 候 不 会 把 这 些 列 
算 进 去 。 比 方 说 表 record_format_demo 的 3 个 列 cl 、 3 、 ec4 都 是 允许 存储 NULL 值 的 ， 而 “2 列 是 被 
NOT NULL 修饰 ， 不 允许 存储 NULL 值 。 

2. 如 果 表 中 没有 允许 存储 NULL 的 列 ， 则 NULL 詹 VW/ 藤 也 不 存在 了 ， 否 则 将 每 个 允许 存储 NULL 的 列 对 应 一 个 
二 进 制 位 ， 二 进 制 位 按照 列 的 顺序 逆序 排列 ， 二 进 制 位 表示 的 意义 如 下 : 


二 进 制 位 的 值 为 1 时 ， 代 表 该 列 的 值 为 NULL 。 
二 进 制 位 的 值 为 0 时 ， 代 表 该 列 的 值 不 为 NULL 。 


因为 表 record_format_demo 有 3 个 值 允 许 为 NULL 的 列 ， 所 以 这 3 个 列 和 二 进 制 位 的 对 应 关系 就 是 这 
样 : 


cl c3 c4 


再 一 次 强调 ， 二 进 制 位 按照 列 的 顺序 逆序 排列 ， 所 以 第 一 个 列 cl 和 最 后 一 个 二 进 制 位 对 应 。 


3，MySQL 规定 NULL 值 列表 必须 用 整数 个 字 节 的 位 表示 ， 如 果 使 用 的 二 进 制 位 个 数 不 是 整数 个 字 节 ， 则 在 字 节 
的 高 位 补 0 。 
表 record_format_demo 只 有 3 个 值 允许 为 NULL 的 列 ， 对 应 3 个 二 进 制 位 ， 不 足 一 个 字 节 ， 所 以 在 字 节 的 高 
位 补 0 ， 效 果 就 是 这 样 : 


cl c3 c4 


/A 





Re 





1 个 字 节 


以 此 类 推 ， 如 果 一 个 表 中 有 9 个 允许 为 NULL ， 那 这 个 记录 的 NULL 值 列表 部 分 就 需要 2 个 字 节 来 表示 了 。 


知道 了 规则 之 后 ， 我 们 再 返回 头 看 表 record_format_demo 中 的 两 条 记录 中 的 NULL 值 列表 应 该 怎么 储存 。 因 为 只 
有 cl 、 c3 、 c4 这 3 个 列 允 许 存 储 NULL 值 ， 所 以 所 有 记录 的 NULL 值 列表 只 需要 一 个 字 节 。 


。 对 于 第 一 条 记录 来 说 ， cl 、 c3 、 c4 这 3 个 列 的 值 都 不 为 NULL ， 所 以 它们 对 应 的 二 进 制 位 都 是 0 ， 画 个 
图 就 是 这 样 : 


el C3 CA 


/人 


Oa, 





1 个 字 市 


所 以 第 一 条 记录 的 NULL 值 列表 用 十 六 进 制 表示 就 是 : 0x00 。 
。 对 于 第 二 条 记录 来 说 ， cl 、 c3 、 c4 这 3 个 列 中 c3 和 c4 的 值 都 为 NULL ， 所 以 这 3 个 列 对 应 的 二 进 制 位 的 
情况 就 是 : 


cl c3 c4 


Oe es le ae 





1 个 字 市 


所 以 第 二 条 记录 的 NULL 值 列表 用 十 六 进 制 表示 就 是 : 0x06 。 
所 以 这 两 条 记录 在 填充 了 NULL 值 列表 后 的 示意 图 就 是 这 样 : 


记录 的 真实 数据 





记录 的 额外 信息 








第 1 条 记录 的 存储 格式 : 列 1 的 值 ” 列 2 的 值 
第 2 条 记录 的 存储 格式 : 记录 头 信息 。 列 1 的 值 “ 列 2 的 值 
记录 义 售 富 


除了 变 长 字段 长 度 列 表 、 NULL 值 列表 之 外 ， 还 有 一 个 用 于 描述 记录 的 记录 头 信息 ， 它 是 由 固定 的 5 个 字 节 组 
成 。 5 个 字 节 也 就 是 40 个 二 进 制 位 ， 不 同 的 位 代表 不 同 的 意思 ， 如 图 : 


预 留 位 1 





record type 
heap_no next_record 





delete_mask 


min_rec_ mask 


这 些 二 进 制 位 代表 的 详细 信息 如 下 表 : 


大 小 (单位 : 
名称 上 描述 
预 留 位 1 1 没有 使 用 


预 留 位 2 1 没有 使 用 


名 称 大 小 (单位 : 描述 


bit) 

delete_ mask 1 标记 该 记录 是 否 被 删除 
min rec mask l B+ 树 的 每 层 非 叶子 节点 中 的 最 小 记录 都 会 添加 该 标记 

n_owned 4 表示 当前 记录 拥有 的 记录 数 

heap_no 13 表示 当前 记录 在 记录 堆 的 位 置信 息 

ee 3 表示 当前 记录 的 类 型 ， 0 表示 普通 记录 ， 1 表示 B+ 树 非 叶子 节点 记录 ， 2 表示 最 小 记录 ， 3 

表示 最 大 记录 
next_record 16 表示 下 一 条 记录 的 相对 位 置 


大 家 不 要 被 这 么 多 的 属性 和 陌生 的 概念 给 吓 着 ， 我 这 里 只 是 为 了 内 容 的 完整 性 把 这 些 位 代表 的 意思 都 写 了 出 来 ， 
现在 没 必 要 把 它们 的 意思 都 记 住 ， 记 住 也 没 哈 用， 现在 只 需要 看 一 遍 混 个 脸 熟 ， 等 之 后 用 到 这 些 属性 的 时 候 我 们 


再 回 过 头 来 看 。 


因为 我 们 并 不 清楚 这 些 属性 详细 的 用 法 ， 所 以 这 里 就 不 分 析 各 个 属性 值 是 怎么 产生 的 了 ， 之 后 我 们 遇 到 会 详细 看 
的 。 所 以 我 们 现在 直接 看 一 下 record_format_demo 中 的 两 条 记录 的 头 信息 分 别 是 什么 : 


小 贴 士 : 
再 一 次 强调 ， 大 家 如 果 看 不 懂 记 录 头 信息 里 各 个 位 代表 的 概念 千 万 别 纠结 ， 我 们 后 边 会 说 的 一 












































4.3.2.2 记录 的 真实 数据 


对 于 record_format_demo 表 来 说 ， 记录 的 真实 数据 除了 cl 、 2 、 c3 、 c4 这 几 个 我 们 自己 定义 的 列 的 数据 
以 外 ， MySQL 会 为 每 个 记录 默认 的 添加 一 些 列 (也 称 为 隐藏 列 ) ， 有 具体 的 列 如 下 : 


列 名 是 否 必须 ”占用 空间 描述 
row_ id 否 6 字 节 ” 行 ID， 唯 一 标识 一 条 记录 
transaction id 是 6 字 节 事务 ID 
roll pointer 是 7 字 节 回 滚 指针 


小 贴 士 : 
实际 上 这 几 个 列 的 真正 名 称 其 实 是 : DB ROW ID、DB TRX ID、DB ROLL PTR， 我 们 为 了 美观 才 写 成 了 row 


id、 transaction id 和 roll pointer。 


这 里 需要 提 一 下 InnoDB 表 对 主键 的 生成 策略 : 优先 使 用 用 户 自 定义 主键 作为 主键 ， 如 果 用 户 没有 定义 主键 ， 则 
选取 一 个 Unique 键 作 为 主键 ， 如 果 表 中 连 Unique 键 都 没有 定义 的 话 ， 则 InnoDB 会 为 表 默 认 添加 一 个 名 为 
row_id 的 隐藏 列 作为 主键 。 所 以 我 们 从 上 表 中 可 以 看 出 : InnoDB 人 存储 引擎 会 为 每 条 记录 都 添加 transaction_id 
和 roll_pointer 这 两 个 列 ， 但 是 row_id 是 可 选 的 (在 没有 自 定义 主键 以 及 Unique 键 的 情况 下 才 会 添加 该 列 ) 。 
这 些 隐藏 列 的 值 不 用 我 们 操心 ， InnoDB 存储 引擎 会 自己 帮 有 我 们 生成 的 。 


因为 表 record_format_demo 并 没有 定义 主键 ， 所 以 MySQL 服务 器 会 为 每 条 记录 增加 上 述 的 3 个 列 。 现 在 看 一 下 
加 上 记录 的 真实 数据 的 两 个 记录 长 什么 样 吧 : 














记录 的 额外 信息 记录 的 真实 数据 


第 1 条 记录 的 存储 格式 : 国 久 < 于 时 和 轩 BEG 对 :对 








T T T T T T T 
row _id transaction id ”roll_pointer ”cil 列 的 值 c2 列 的 值 c3 列 的 值 c4 列 的 值 


第 2 条 记录 的 存储 格式 : 0304 06 000018FFC2 00000000076C 0000000069AB FAO00000170011F 65656565 666666 
人 一) 


row id transaction id ”roll_pointer ”cil 列 的 值 c2 列 的 值 
看 这 个 图 的 时 候 我 们 需要 注意 几 点 : 


1. 表 record_format demo 使 用 的 是 ascii 字符 集 ， 所 以 0x61616161 就 表示 字符 串 aaaa”， 0x626262 就 表 
示 字 符 串 :bbb”， 以 此 类 推 。 

2. 注意 第 1 条 记录 中 c3 列 的 值 ， 它 是 CHAR(10) 类 型 的 ， 它 实际 存储 的 字符 串 是 : “cc”， 而 ascii 字符 集中 
的 字 节 表示 是 0x6363”， 哩 然 表示 这 个 字符 串 只 占用 了 2 个 字 节 ， 但 整个 3 列 仍然 占用 了 10 个 字 节 的 空 
间 ， 除 真实 数据 以 外 的 8 个 字 节 的 统统 都 用 空格 字符 填充 ， 空 格 字符 在 ascii 字符 集 的 表示 就 是 0x20 。 

3. 注意 第 2 条 记录 中 c3 和 c4 列 的 值 都 为 NULL ， 它 们 被 存储 在 了 前 边 的 NULL 值 列表 处 ， 在 记录 的 真实 数据 处 
就 不 再 见 余 存储 ， 从 而 节省 存储 空间 。 




















4.3.2.3 CHAR(M) 列 的 存储 格式 


record format demo 表 的 cl 、 c2 、 c4 列 的 类 型 是 VARCHAR (10) ， 而 c3 列 的 类 型 是 CHAR (10) ， 我 们 说 在 
Compact 行 格式 下 只 会 把 变 长 类 型 的 列 的 长 度 逆 序 存 到 变 长 字段 长 度 列 表 中 ， 就 像 这 样 : 


ci c2 C4 


变 长 字段 长 度 列表 : 





但 是 这 只 是 因为 我 们 的 record_format_demo 表 采 用 的 是 ascii 字符 集 ， 这 个 字符 集 是 一 个 定 长 字符 集 ， 也 就 是 
说 表示 一 个 字符 采用 固定 的 一 个 字 节 ， 如 果 采 用 变 长 的 字符 集 (也 就 是 表示 一 个 字符 需要 的 字 节 数 不 确定 ， 比 如 
gbk 表示 一 个 字符 要 12 个 字 蔬 。 ttf8 表示 一 个 字符 要 13 个 字 节 等 ) 的 话 ， c3 列 的 长 度 也 会 被 存储 到 变 长 字段 
长 度 列 表 中 ， 比 如 我 们 修改 一 下 record_format_demo 表 的 字符 集 : 


mysql> ALTER TABLE record format demo MODIFY COLUMN c3 CHAR(10) CHARACTER SET utf8; 
Query OK，2 rows affected (0. 02 sec) 
Records: 2 Duplicates: 0 _ Warnings: 0 


修改 该 列 字符 集 后 记录 的 变 长 字段 长 度 列表 也 发 生 了 变化 ， 如 图 : 


沙 (修改 列 c3 的 字符 集 前 ) 
交 长 字段 长 度 列 表 : 。 国 5 二 :于 2 


(修改 列 c3 的 字符 集 后 ) 
变 长 字段 长 度 列表 : 





这 就 意味 着 : 对 于 CHAR(M) 类 型 的 列 来 说 ， 当 列 采 用 的 是 定 长 字符 集 时 ， 该 列 占用 的 字 节 数 不 会 被 加 到 变 长 字 
段 长 度 列表 ， 而 如 果 采 用 变 长 字符 集 时 ， 该 列 占用 的 字 节 数 也 会 被 加 到 变 长 字段 长 度 列表 。 


另外 有 一 点 还 需要 注意 ， 变 长 字符 集 的 CHAR (M) 类 型 的 列 要 求 至 少 占 用 M 个 字 节 ， 而 VARCHAR (M) 却 没有 这 个 要 
求 。 比 方 说 对 于 使 用 utf8 字符 集 的 CHAR (10) 的 列 来 说 ,该 列 存 储 的 数据 字 节 长 度 的 范围 是 10 ~ 30 个 字 节 。 即 
使 我 们 向 该 列 中 存储 一 个 空 字 符 串 也 会 占用 10 个 字 节 ， 这 是 怕 将 来 更 新 该 列 的 值 的 字 节 长 度 大 于 原 有 值 的 字 节 
长 度 而 小 于 10 个 字 节 时 ， 可 以 在 该 记录 处 直接 更 新 ， 而 不 是 在 存储 空间 中 重新 分 配 一 个 新 的 记录 空间 ， 导 致 原 有 
的 记录 空间 成 为 所 谓 的 碎片 。 (这 里 你 感受 到 设计 Compact 行 格式 的 大 朴 既 想 节 省 存储 空间 ， 又 不 想 更 新 

CHAR (M) 类 型 的 列 产 生 碎 片 时 的 纠结 心情 了 吧 。) 


4.3.3 Redundant 行 格式 

其 实 知道 了 Compact 行 格式 之 后 ， 其 他 的 行 格式 就 是 依 葫芦 画 标 了 。 我 们 现在 要 介绍 的 Redundant 行 格式 是 
MySQL5. 0 之 前 用 的 一 种 行 格式 ， 也 就 是 说 它 已 经 非常 者 了 ， 但 是 本 着 知识 完整 性 的 角度 还 是 要 提 一 下 ， 大 家 乐 
呵 乐 呵 的 看 就 好 。 

画 个 图 展示 一 下 Redundant 行 格 式 的 全 用: 


Redundant 行 格式 示意 图 


记录 的 额外 信息 记录 的 真实 数据 


字段 长 度 偏 移 列表 记录 头 信息 。 列 1 的 值 ” 列 2 的 值 二 列 n 的 值 





现在 我 们 把 表 record format_demo 的 行 格 式 修改 为 Redundant : 


mysql> ALTER TABLE record format demo ROW FORMAT=Redundant:; 
Query OK, 0 rows affected (0.05 sec) 
Records: 0 Duplicates: 0 VWarnings: 0 


为 了 方便 大 家 理解 和 节省 篇 幅 ， 我 们 直接 把 表 record_format_demo 在 Redundant 行 格式 下 的 两 条 记录 的 真实 存 
储 数 据 提 供出 来 ， 之 后 我 们 着 重 分 析 两 种 行 格式 的 不 同 即 可 。 


记录 的 额外 信息 


第 1 条 记录 的 存储 格式 : 区 :PILEkKi et 汪 ET 





row_id transaction_id ”roll_pointer ”ci 列 的 值 c2 列 的 值 c3 列 的 值 c4 列 的 值 


第 2 条 记录 的 存储 格式 : 苇 VEVEVEYEET0o -午时 [EE 对 oT 
i 


row_id transaction_id ”roll_pointer ”cil 列 的 值 c2 列 的 值 c3 列 的 值 


下 边 我 们 从 各 个 方面 看 一 下 Redundant 行 格式 有 什么 不 同 的 地 方 : 
。 字段 长 度 偏 移 列表 


注意 Compact 行 格式 的 开头 是 变 长 字段 长 度 列 表 ， 而 Redundant 行 格式 的 开头 是 字段 长 度 偏 移 列 表 ， 与 
变 长 字段 长 度 列表 有 两 处 不 同 : 
， 没有 了 变 长 两 个 字 ， 意 味 着 Redundant 行 格 式 会 把 该 条 记录 中 所 有 列 (包括 隐藏 列 ) 的 长 度 信息 都 按 
照 逆序 存储 到 字段 长 度 偏 移 列表 。 
， 多 了 个 偏 移 两 个 字 ， 这 意味 着 计算 列 值 长 度 的 方式 不 像 Compact 行 格式 那么 直观 ， 它 是 采用 两 个 相 邻 数 
值 的 差 值 来 计算 各 个 列 值 的 长 度 。 


比如 第 一 条 记录 的 字段 长 度 偏 移 列表 就 是 : 





25 24 1A 17 13 0C 06 
因为 它 是 逆序 排放 的 ， 所 以 按照 列 的 顺序 排列 就 是 : 
06 0C 13 17 1A 24 25 


按照 两 个 相 邻 数值 的 差 值 来 计算 各 个 列 值 的 长 度 的 意思 就 是 : 








第 一 列 ( row_id ) 的 长 度 就 是 0x06 个 字 节 ， 也 就 是 6 个 字 节 。 











第 二 列 ( transaction id ) 的 长 度 就 是 (0x0C - 0x06) 个 字 节 ， 也 就 是 6 个 字 节 。 








第 三 列 ( roll pointer ) 的 长 度 就 是 (0x13 - 0x0C) 个 字 节 ， 也 就 是 7 个 字 节 。 
第 四 列 ( cl ) 的 长 度 就 是 (0x17 - 0x13) 个 字 节 ， 也 就 是 4 个 字 节 。 


第 五 列 ( c2.) 的 长 度 就 是 (0xlA - 0xl7) 个 字 节 ， 也 就 是 3 个 字 节 。 





第 六 列 ( c3. ) 的 长 度 就 是 (0x24 - 0xlA) 个 字 节 ， 也 就 是 10 个 字 节 。 























第 七 列 Cc4) 的 长 度 就 是 (0x25 - 0x24) 个 字 节 ， 也 就 是 1 个 字 节 。 


记录 头 信 息 
Redundant 行 格 式 的 记录 头 信息 占用 6 字 节 ， 48 个 二 进 制 位 ， 这 些 二 进 制 位 代表 的 意思 如 下 : 
| 名 称 | 大 小 (单位 : bit) | 描述 | |:--:|:--:|:--:| | 预 留 位 1 | 1 | 没有 使 用 | | 预 留 位 2 | 1 | 没有 使 用 | 


| delete_mask | 1 | 标记 该 记录 是 否 被 删除 | | min_rec_mask | 1 |B+ 树 的 每 层 非 叶子 节点 中 的 最 小 记录 都 会 添 
加 该 标记 | | n_oed | 4 | 表示 当前 记录 拥有 的 记录 数 | | heap_no | 13 | 表示 当前 记录 在 页 面 堆 的 位 置信 息 | 

| n_field | 10 | 表示 记录 中 列 的 数量 | | 1byte_offs_f1ag | 1 | 标记 字段 长 度 偏 移 列表 中 每 个 列 对 应 的 偏 移 量 是 
使 用 1 字 节 还 是 2 字 节 表示 的 | | next_record | 16 | 表示 下 一 条 记录 的 相对 位 置 


第 一 条 记录 中 的 头 信息 是 : 
00 00 10 OF 00 BC 
根据 这 六 个 字 节 可 以 计算 出 各 个 属性 的 值 ， 如 下 : 


预 留 位 1]: 0x00 

预 留 位 2: 0x00 

delete mask: 0x00 
min rec mask: Ox00 
n_owned: Ox00 

heap no: 0x02 

n field: Ox07 

lbyte offs flag: 0x01 


next_ record:0xBC 


与 Compact 行 格 式 的 记录 头 信息 对 比 来 看 ， 有 两 处 不 同 : 
”Redundant 行 格式 多 了 n_field 和 lbyte_offs_flag 这 两 个 属性 。 
”Redundant 行 格式 没有 record_type 这 个 属性 。 

lbyte_offs_flag 的 值 是 怎么 选择 的 


字段 长 度 偏 移 列表 实质 上 是 存储 每 个 列 中 的 值 占 用 的 空间 在 记录 的 真实 数据 处 结束 的 位 置 ， 还 是 拿 
record_format_demo 第 一 条 记录 为 例 ， 0x06 代表 第 一 个 列 在 记录 的 真实 数据 第 6 个 字 节 处 结束 ， 0x0C 代 
表 第 二 个 列 在 记录 的 真实 数据 第 12 个 字 节 处 结束 ， 0x13 代表 第 三 个 列 在 记录 的 真实 数据 第 19 个 字 节 处 结 

， 等 等 等 等 ， 最 后 一 个 列 对 应 的 偏 移 量 值 为 0x25 ， 也 就 意味 着 最 后 一 个 列 在 记录 的 真实 数据 第 37 个 字 
节 处 结束 ， 也 就 意味 着 整 条 记录 的 真实 数据 实际 上 占用 37 个 字 节 。 


我 们 前 边 说 过 每 个 列 对 应 的 偏 移 量 可 以 占用 1 个 字 节 或 者 2 个 字 节 来 存储 ， 那 到 底 什 么 时 候 用 1 个 字 节 ， 什 么 
时 候 用 2 个 字 节 呢 ? 其 实 是 根据 该 条 Redundant 行 格式 记录 的 真实 数据 占用 的 总 大 小 来 判断 的 : 
。 当 记 录 的 真实 数据 占用 的 字 节 数 不 大 于 127 (十 六 进 制 0x7F ， 二 进 制 01111111 ) 时 ， 每 个 列 对 应 的 偏 
移 量 占用 1 个 字 节 。 























小 贴 士 : 
如 果 整 个 记录 的 真实 数据 占用 的 存储 空间 都 不 大 于 127 个 字 节 ， 那 么 每 个 列 对 应 的 偏 移 量 值 肯 
定 也 就 不 大 于 127， 也 就 可 以 使 用 1 个 字 节 来 表示 嗪 。 

































































。 当 记 录 的 真实 数据 占用 的 字 节 数 大 于 127， 但 不 大 于 32767 (十 六 进 制 0x7FFF ， 二 进 制 
0111111111111111 ) 时 ， 每 个 列 对 应 的 偏 移 量 占用 2 个 字 节 。 

。 有 没有 记录 的 真实 数据 大 于 32767 的 情况 呢 ” 有 ， 不 过 此 时 的 记录 已 经 存放 到 了 溢出 页 中 ， 在 本 页 中 只 
保留 前 768 个 字 节 和 20 个 字 节 的 溢出 页 面 地 址 (当然 这 20 个 字 节 中 还 记录 了 一 些 别 的 信息 ) 。 因 为 字 
段 长 度 偏 移 列 表 处 只 需要 记录 每 个 列 在 本 页 面 中 的 偏 移 就 好 了 ， 所 以 每 个 列 使 用 2 个 字 节 来 存储 偏 移 量 
就 够 了 。 


大 家 可 以 看 出 来 ， 设 计 Redundant 行 格式 的 大 叔 还 是 比较 简单 粗暴 的 ， 直 接 使 用 整个 记录 的 真实 数据 
长 度 来 决定 使 用 1 个 字 节 还 是 2 个 字 节 存储 列 对 应 的 偏 移 量 。 只 要 整 条 记录 的 真实 数据 占用 的 存储 空间 大 
小 大 于 127， 即 使 第 一 个 列 的 值 占用 存储 空间 小 于 127， 那 对 不 起 ， 也 需要 使 用 2 个 字 节 来 表示 该 列 对 应 
的 偏 移 量 。 简 单 粗暴 ， 就 是 这 么 简单 粗暴 (所 以 这 种 行 格式 有 些 过 时 了 ~ ) 。 

小 贴 士 : 


大 家 有 没有 疑惑 ， 一 个 字 节能 表示 的 范围 是 0 一 255， 为 啥 在 记录 的 真实 数据 占用 的 存储 空间 大 
于 127 时 就 采用 2 个 字 节 表示 各 个 列 的 偏 移 量 呢 ? 稍 安 勿 躁 ， 后 边 马 上 揭晓 。 










































































为 了 在 解析 记录 时 知道 每 个 列 的 偏 移 量 是 使 用 1 个 字 节 还 是 2 个 字 节 表示 的 ， 设 计 Redundant 行 格式 的 大 
叔 特意 在 记录 头 信息 里 放置 了 一 个 称 之 为 lbyte_offs_flag 的 属性 : 
当 它 的 值 为 1 时 ， 表 明 使 用 1 个 字 节 存储 。 
" 当 它 的 值 为 0 时 ， 表 明 使 用 2 个 字 节 存储 。 
Redundant 行 格式 中 NULL 值 的 处 理 


因为 Redundant 行 格式 并 没有 NULL 值 列表 ， 所 以 设计 Redundant 行 格式 的 大 叔 在 字段 长 度 偏 移 列 表 中 的 
各 个 列 对 应 的 偏 移 量 处 做 了 一 些 特殊 处 理 一 一 将 列 对 应 的 偏 移 量 值 的 第 一 个 比特 位 作为 是 否 为 NULL 的 依 

据 ， 该 比特 位 也 可 以 被 称 之 为 NULL 比 特 位 。 也 就 是 说 在 解析 一 条 记录 的 某 个 列 时 ， 首 先 看 一 下 该 列 对 应 的 
偏 移 量 的 NULL 比 特 位 是 不 是 为 1 ， 如 果 为 1 ， 那 么 该 列 的 值 就 是 NULL ， 否 则 不 是 NULL 。 


这 也 就 解释 了 上 边 介 绍 为 什么 只 要 记录 的 真实 数据 大 于 127 (十 六 进 制 0x7F ， 二 进 制 01111111 ) 时 ， 就 采 
用 2 个 字 节 来 表示 一 个 列 对 应 的 偏 移 量 ， 主 要 是 第 一 个 比特 位 是 所 谓 的 NULL 比 特 位 ， 用 来 标记 该 列 的 值 是 否 
为 NULL 。 





但 是 还 有 一 点 要 注意 ， 对 于 值 为 NULL 的 列 来 说 ,该 列 的 类 型 是 否 为 定 长 类 型 决定 了 NULL 值 的 实际 存储 方 
式 ， 我 们 接 下 来 分 析 一 下 record_format_demo 表 的 第 二 条 记录 ， 它 对 应 的 字段 长 度 偏 移 列表 如 下 : 


A4 A4 1A 17 13 0C 06 
按照 列 的 顺序 排放 就 是 : 
06 0C 13 17 1A A4 A4 
我 们 分 情况 看 一 下 : 
。 如 果 存 储 NULL 值 的 字段 是 定 长 类 型 的 ， 比 方 说 CHAR (M) 数据 类 型 的 ， 则 NULL 值 也 将 占用 记录 的 真实 
数据 部 分 ， 并 把 该 字段 对 应 的 数据 使 用 0x00 字 节 填充 。 


如 图 第 二 条 记录 的 c3 列 的 值 是 NILL ， 而 c3 列 的 类 型 是 CHAR (10) ， 占 用 记录 的 真实 数据 部 分 10 字 
节 ， 所 以 我 们 看 到 在 Redundant 行 格式 中 使 用 0x00000000000000000000 来 表示 NULL 值 。 


另外 ， c3 列 对 应 的 偏 移 量 为 0xA4 ， 它 对 应 的 二 进 制 实际 是 : 10100100 ， 可 以 看 到 最 高 位 为 1 ， 意 味 
着 该 列 的 值 是 NULL 。 将 最 高 位 去 掉 后 的 值 变 成 了 0100100 ， 对 应 的 十 进 制 值 为 36 ， 而 “2 列 对 应 的 偏 
移 量 为 0x1A ， 也 就 是 十 进 制 的 26 。 36 - 26 = 10 ， 也 就 是 说 最 终 c3 列 占用 的 存储 空间 为 10 个 字 





节 。 
， 如 果 该 存储 NULL 值 的 字段 是 变 长 数据 类 型 的 ， 则 不 在 记录 的 真实 数据 处 占用 任何 存储 空间 。 





比如 record format demo 表 的 c4 列 是 VARCHAR (10) 类 型 的 ， VARCHAR (10) 是 一 个 变 长 数据 类 型 ， 

c4 列 对 应 的 偏 移 量 为 0xA4 ， 与 “3 列 对 应 的 偏 移 量 相同 ， 这 也 就 意味 着 它 的 值 也 为 NULL， 将 0xA4 
的 最 高 位 去 掉 后 对 应 的 十 进 制 值 也 是 36 ， 36 - 36 = 0 ， 也 就 意味 着 c4 列 本 身 不 占用 任何 记录 的 实 
际 数据 处 的 空间 。 


除了 以 上 的 几 点 之 外 ， Redundant 行 格式 和 Compact 行 格式 还 是 大 致 相同 的 。 


4.3.3.1 CHAR(M) 列 的 存储 格式 


我 们 知道 Compact 行 格式 在 CHAR WM) 类 型 的 列 中 存储 数据 的 时 候 还 挺 麻 烦 ， 分 变 长 字符 集 和 定 长 字符 集 的 情况 ， 
而 在 Redundant 行 格 式 中 十 分 干脆 ， 不 管 该 列 使 用 的 字符 集 是 喻 ， 只 要 是 使 用 CHAR (M) 类 型 ， 占 用 的 真实 数据 空 
间 就 是 该 字符 集 表 示 一 个 字符 最 多 需要 的 字 节 数 和 M 的 乘积 。 比 方 说 使 用 utf8 字符 集 的 CHAR (10) 类 型 的 列 占 
用 的 真实 数据 空间 始终 为 30 个 字 节 ， 使 用 gbk 字符 集 的 CHAR (10) 类 型 的 列 占用 的 真实 数据 空间 始终 为 20 个 字 
节 。 由 此 可 以 看 出 来 ， 使 用 Redundant 行 格 式 的 CHAR (M) 类 型 的 列 是 不 会 产生 碎片 的 。 


4.3.4 行 溢出 数据 


4.3.4.1 VARCHAR(M) 最 多 能 存储 的 数据 


我 们 知道 对 于 VARCHAR (M) 类 型 的 列 最 多 可 以 占用 65535 个 字 节 。 其 中 的 M 代表 该 类 型 最 多 存储 的 字符 数量 ， 如 
果 我 们 使 用 ascii 字符 集 的 话 ， 一 个 字符 就 代表 一 个 字 节 ， 我 们 看 看 VARCHAR (65535) 是 否 可 用 : 


mysql> CREATE TABLE varchar size demo( 
-> c VARCHAR(65535) 
-> ) CHARSET=ascii ROW FORMAT=Compact; 
ERROR 1118 (42000): Row size too large. The maximum row size for the used table type, not 
counting BLOBs, is 65535. This includes storage overhead, check the manual. You have to c 
hange some columns to TEXT or BLOBs 
mysql> 


从 报错 信息 里 可 以 看 出 ， MySQL 对 一 条 记录 占用 的 最 大 存储 空间 是 有 限制 的 ， 除 了 BLOB 或 者 TEXT 类 型 的 列 之 
外 ， 其 他 所 有 的 列 (不 包括 隐藏 列 和 记录 头 信 息 ) 占用 的 字 节 长 度 加 起 来 不 能 超过 65535 个 字 节 。 所 以 MySQL 服 
务 器 建议 我 们 把 存储 类 型 改 为 TEXT 或 者 BLOB 的 类 型 。 这 个 65535 个 字 节 除了 列 本 身 的 数据 之 外 ， 还 包括 一 些 
其 他 的 数据 ( storage overhead ) ， 比 如 说 我 们 为 了 存储 一 个 VARCHAR (M) 类 型 的 列 ， 其 实 需要 占用 3 部 分 存储 
空间 : 


。 真实 数据 
。 真实 数据 占用 字 节 的 长 度 
。 NULL 值 标识 ， 如 果 该 列 有 NOT NULL 属性 则 可 以 没有 这 部 分 存储 空间 


如 果 该 VARCHAR 类 型 的 列 没 有 NOT NULL 属性 ， 那 最 多 只 能 存储 65532 个 字 节 的 数据 ， 因 为 真实 数据 的 长 度 可 能 
占用 2 个 字 节 ， NULL 值 标识 需要 占用 1 个 字 节 : 


mysql> CREATE TABLE varchar size demo( 

-> c VARCHAR(65532) 

-> ) CHARSET=ascii ROW FORMAT=Compact ; 
Query OK，0 rows affected (0. 02 sec) 


如 果 VARCHAR 类 型 的 列 有 NOT NULL 属性 ， 那 最 多 只 能 存储 65533 个 字 节 的 数据 ， 因 为 真实 数据 的 长 度 可 能 占用 
2 个 字 节 ， 不 需要 NULL 值 标识 : 


mysql> DROP TABLE varchar size demo; 
Query OK, 0 rows affected (0.01 sec) 


mysql> CREATE TABLE varchar size demo( 

= c VARCHAR(65533) NOT NULL 

-> ) CHARSET=ascii ROW FORMAT=Compact; 
Query OK, 0 rows affected (0. 02 sec) 


如 果 VARCHAR (M) 类 型 的 列 使 用 的 不 是 ascii 字符 集 ， 那 会 怎么 样 呢 ? 来 看 一 下 : 


mysql> DROP TABLE varchar size demo; 
Query OK, 0 rows affected (0.00 sec) 


mysql> CREATE TABLE varchar size demo( 

-> c VARCHAR(65532) 

-> ) CHARSET=gbk ROW FORMAT=Compact; 
ERROR 1074 (42000): Column length too big for column ’¢” (max = 32767); use BLOB or TEXT i 
nstead 


mysql> CREATE TABLE varchar size demo( 
-> c VARCHAR(65532) 
-> ) CHARSET=utf8 ROW FORMAT=Compact; 
ERROR 1074 (42000): Column length too big for column ’c¢ (max = 21845); use BLOB or TEXT i 


nstead 


从 执行 结果 中 可 以 看 出 ， 如 果 VARCHAR (M) 类 型 的 列 使 用 的 不 是 ascii 字符 集 ， 那 M 的 最 大 取 值 取决 于 该 字符 集 
表示 一 个 字符 最 多 需要 的 字 节 数 。 在 列 的 值 允许 为 NULL 的 情况 下 ， gbk 字符 集 表示 一 个 字符 最 多 需要 2 个 字 
节 ， 那 在 该 字符 集 下 ， M 的 最 大 取 值 就 是 32766 (也 就 是 : 65532/2) ， 也 就 是 说 最 多 能 存储 32766 个 字符 ; 
utf8 字符 集 表示 一 个 字符 最 多 需要 3 个 字 节 ， 那 在 该 字符 集 下 ， M 的 最 大 取 值 就 是 21844 ， 就 是 说 最 多 能 存 
储 21844 (也 就 是 : 65532/3) 个 字符 。 


小 贴 士 : 

上 述 所 言 在 列 的 值 允许 为 NULL 的 情况 下 ，gbk 字 符 集 下 M 的 最 大 取 值 就 是 32766，utf8 字 符 集 下 M 的 最 大 取 
值 就 是 21844， 这 都 是 在 表 中 只 有 一 个 字段 的 情况 下 说 的 ， 一 定 要 记 住 一 个 行 中 的 所 有 列 〈 不 包括 隐藏 
列 和 记录 头 信息 ) 占用 的 字 节 长 度 加 起 来 不 能 超过 65535 个 字 节 ! 






























































4.3.4.2 记录 中 的 数据 太 多 产生 的 溢出 
我 们 以 ascii 字符 集 下 的 varchar_size_demo 表 为 例 ， 插 入 一 条 记录 : 


mysql> CREATE TABLE varchar size demo( 

-> c VARCHAR(65532) 

-> ) CHARSET=ascii ROW FORMAT=Compact; 
Query OK, 0 rows affected (0.01 sec) 


mysql> INSERT INTO varchar size demo(c) VALUES (REPEAT( a ，65532) ) ; 
Query OK, 1 row affected (0. 00 sec) 


其 中 的 REPEAT( a ，65532) 是 一 个 函数 调用 ， 它 表示 生成 一 个 把 字符 'a” 重 复 65532 次 的 字符 串 。 前 边 说 

过 ， MySQL 中 磁盘 和 内 存 交互 的 基本 单位 是 页 ， 也 就 是 说 MySQL 是 以 页 为 基本 单位 来 管理 存储 空间 的 ， 我 们 
的 记录 都 会 被 分 配 到 某 个 页 中 存储 。 而 一 个 页 的 大 小 一 般 是 16KB ， 也 就 是 16384 字 节 ， 而 一 个 VARCHAR (M) 类 
型 的 列 就 最 多 可 以 存储 65532 个 字 节 ， 这 样 就 可 能 造成 一 个 页 存放 不 了 一 条 记录 的 复诊 情况 。 


在 Compact 和 Reduntant 行 格 式 中 ， 对 于 占用 存储 空间 非常 大 的 列 ， 在 记录 的 真实 数据 处 只 会 存储 该 列 的 一 部 
分 数据 ， 把 剩余 的 数据 分 散 存 储 在 几 个 其 他 的 页 中 ， 然 后 记录 的 真实 数据 处 用 20 个 字 节 存储 指向 这 些 页 的 地 址 

(当然 这 20 个 字 节 中 还 包括 这 些 分 散在 其 他 页 面 中 的 数据 的 占用 的 字 节 数 ) ， 从 而 可 以 找到 剩余 数据 所 在 的 页 ， 
如 图 所 示 : 








Redundant 行 格式 示意 图 


记录 的 额外 信息 记录 的 真实 数据 


字段 长 度 偏 移 列表 “记录 头 信息 。 列 1 的 值 ” 列 2 的 值 oe 列 n 的 值 





从 图 中 可 以 看 出 来 ， 对 于 Compact 和 Reduntant 行 格式 来 说 ， 如 果 某 一 列 中 的 数据 非常 多 的 话 ， 在 本 记录 的 真实 
数据 处 只 会 存储 该 列 的 前 768 个 字 节 的 数据 和 一 个 指向 其 他 页 的 地 址 ， 然 后 把 剩 下 的 数据 人 存放 到 其 他 页 中 ， 这 个 
过 程 也 叫做 行 溢出 ， 存 储 超 出 768 字 节 的 那些 页 面 也 被 称 为 溢出 页 。 画 一 个 简 图 就 是 这 样 : 


记录 : … 字符 串 的 前 768 字 节 溢出 页 地 址 









存储 该 字段 剩余 数据 的 溢出 页 





最 后 需要 注意 的 是 ， 不 只 是 VARCHAR(M) 类 型 的 列 ， 其 他 的 TEXT、BLOB 类 型 的 列 在 存储 数据 非常 多 的 时 候 
也 会 发 生 行 溢出 。 





4.3.4.3 行 溢出 的 临界 点 
那 发 生 行 溢 出 的 临界 点 是 什么 呢 ? 也 就 是 说 在 列 存储 多 少 字 节 的 数据 时 就 会 发 生 行 溢出 ? 


MySQL 中 规定 一 个 页 中 至 少 存放 两 行 记 录 ， 至 于 为 什么 这 么 规定 我 们 之 后 再 说 ， 现 在 看 一 下 这 个 规定 造成 的 影 
响 。 以 上 边 的 varchar_size_demo 表 为 例 ， 它 只 有 一 个 列 。， 我 们 往 这 个 表 中 插入 两 条 记录 ， 每 条 记录 最 少 插 入 
多 少 字 节 的 数据 才 会 行 溢出 的 现象 呢 ? 这 得 分 析 一 下 页 中 的 空间 都 是 如 何 利用 的 。 


。 每 个 页 除了 存放 我 们 的 记录 以 外 ， 也 需要 存储 一 些 额 外 的 信息 ， 乱 七 八 糟 的 额外 信息 加 起 来 需要 136 个 字 节 
的 空间 (现在 只 要 知道 这 个 数字 就 好 了 ) ， 其 他 的 空间 都 可 以 被 用 来 存储 记录 。 
。 每 个 记录 需要 的 额外 信息 是 27 字 节 。 


这 27 个 字 节 包括 下 边 这 些 部 分 : 
" 2 个 字 节 用 于 存储 真实 数据 的 长 度 
" 1 个 字 节 用 于 存储 列 是 否 是 NULL 值 
5 个 字 节 大 小 的 头 信息 
" 6 个 字 节 的 row_id 列 
= 6 个 字 节 的 transaction id 列 
a 7 个 字 节 的 roll] pointer 列 





假设 一 个 列 中 存储 的 数据 字 节 数 为 n， 那 么 发 生 行 溢出 现象 时 需要 满足 这 个 式 子 : 

136 + 2X (27 + n) > 16384 
求解 这 个 式 子 得 出 的 解 是 : n > 8098 。 也 就 是 说 如 果 一 个 列 中 存储 的 数据 不 大 于 8098 个 字 节 ， 那 就 不 会 发 生 
行 溢出 ， 否 则 就 会 发 生 行 溢出 。 不 过 这 个 8098 个 字 节 的 结论 只 是 针对 只 有 一 个 列 的 varchar_size_demo 表 来 


说 的 ， 如 果 表 中 有 多 个 列 ， 那 上 边 的 式 子 和 结论 都 需要 改 一 改 了 ， 所 以 重点 就 是 : 你 不 用 关注 这 个 临界 点 是 什 
么 ， 只 要 知道 如 果 我 们 想 一 个 行 中 人 存储 了 很 大 的 数据 时 ， 可 能 发 生 行 溢出 的 现象 。 





4.3.5 Dynamic 和 Compressed 行 格式 


下 边 要 介绍 另外 两 个 行 格式 ， Dynamic 和 Compressed 行 格式 ， 我 现在 使 用 的 MySQL 版 本 是 5. 7 ， 它 的 默认 行 格 
式 就 是 Dynamic ， 这 俩 行 格式 和 Compact 行 格式 挺 像 ， 只 不 过 在 处 理 行 溢出 数据 时 有 点 儿 分 歧 ， 它 们 不 会 在 记 
录 的 真实 数据 处 存储 字段 真实 数据 的 前 768 个 字 节 ， 而 是 把 所 有 的 字 节 都 存储 到 其 他 页 面 中 ， 只 在 记录 的 真实 数 
据 处 存储 其 他 页 面 的 地 址 ， 就 像 这 样 : 


记录 : 






存储 该 字段 全 部 数据 的 溢出 页 ， 





Compressed 行 格式 和 Dynamic 不 同 的 一 点 是 ， Compressed 行 格式 会 采用 压缩 算法 对 页 面 进行 压缩 ， 以 节省 空 
间 。 
4.4 总 结 


1. 页 是 MySQL 中 磁盘 和 内 存 交互 的 基本 单位 ， 也 是 MySQL 是 管理 存储 空间 的 基本 单位 。 
2. 指定 和 修改 行 格式 的 语法 如 下 : 


CREATE TABLE 表 名 ( 列 的 信息 ) ROW FORMAT= 行 格式 名 称 
ALTER TABLE 表 名 ROW_FORMAT= 行 格式 名 称 
3. InnoDB 目前 定义 了 4 种 行 格式 
。 COMPACT 行 格式 
具体 组 成 如 图 : 
Compact 行 格式 示意 图 


记录 的 额外 信息 记录 的 真实 数据 





变 长 字段 长 度 列 表 “NULL 值 列表 ”记录 头 信息 。 列 1 的 值 ” 列 2 的 值 


。 Redundant 行 格式 


具体 组 成 如 图 : 









记录 的 额外 信息 记录 的 真实 数据 


























/这 个 是 存放 记录 的 页 
| 变 长 字段 长 度 列表 。 NULL 值 列表 “记录 头 信息 。“ aaaa…aaa 。 其 他 的 页 的 地 址 i 2 | 
3 
/这 几 个 页 是 用 来 , 
| ”存放 数据 的 ， 这 些 页 面 | 
| 、 使 用 链表 连接 起 来 




















。 Dynamic 和 Compressed 行 格式 


这 两 种 行 格式 类 似 于 COMPACT 行 格式 ， 只 不 过 在 处 理 行 溢出 数据 时 有 点 儿 分 上 层 ， 它 们 不 会 在 记录 的 真实 
数据 处 存储 字符 串 的 前 768 个 字 节 ， 而 是 把 所 有 的 字 节 都 存储 到 其 他 页 面 中 ， 只 在 记录 的 真实 数据 处 存 
储 其 他 页 面 的 地 址 。 


另外 ， Compressed 行 格 式 会 采用 压缩 算法 对 页 面 进行 压缩 。 
4. 一 个 页 一 般 是 16KB ， 当 记录 中 的 数据 太 多 ， 当 前 页 放 不 下 的 时 候 ， 会 把 多 余 的 数据 存储 到 其 他 页 中 ， 这 种 
现象 称 为 行 溢出 。 


5 第 5 章 盛 放 记 录 的 大 盒子 -InnoDB 数 据 页 结构 


标签 : _ MySQL 是 怎样 运行 的 


5.1 不 同类 型 的 页 简介 


前 边 我 们 简单 担 了 一 下 页 的 概念 ， 它 是 InnoDB 管理 存储 空间 的 基本 单位 ， 一 个 页 的 大 小 一 般 是 16KB 。 

InnoDB 为 了 不 同 的 目的 而 设计 了 许多 种 不 同类 型 的 页 ， 比 如 存放 表 空间 头 部 信息 的 页 ， 存 放 Insert Buffer 
信息 的 页 ， 人 存放 INODE 信息 的 页 ， 人 存放 undo 日 志 信息 的 页 等 等 等 等 。 当 然 了 ， 如 果 我 说 的 这 些 名 词 你 一 个 都 没 
有 了 听 过 ， 就 当 我 放 了 个 屁 吧 ~ 不 过 这 没有 一 毛 钱 关系 ， 我 们 今 儿 个 也 不 准备 说 这 些 类 型 的 页 ， 我 们 聚焦 的 是 那些 
存放 我 们 表 中 记录 的 那 种 类 型 的 页 ， 官 方 称 这 种 存放 记录 的 页 为 索引 ( INDEX ) 页 ， 鉴 于 我 们 还 没有 了 解 过 索引 
是 个 什么 东西 ， 而 这 些 表 中 的 记录 就 是 我 们 日 常 口中 所 称 的 数据 ， 所 以 目前 还 是 叫 这 种 存放 记录 的 页 为 数据 页 
吧 。 


5.2 数据 页 结构 的 快速 浏览 


数据 页 代表 的 这 块 16KB 大 小 的 存储 空间 可 以 被 划分 为 多 个 部 分 ， 不 同 部 分 有 不 同 的 功能 ， 各 个 部 分 如 图 所 示 : 


InnoDB 数 据 页 结构 示意 图 
File Header (38 字 节 ) 


Page Header (56 字 节 ) 
Infimum + supremum (26 字 节 ) 


这 些 是 行 记 录 
User Records (大 小 不 确定 ) 


Free Space (大 小 不 确定 ) 


Page Directory (大 小 不 确定 ) 


File Tailer (8 字 节 ) 





从 图 中 可 以 看 出 ， 一 个 InnoDB 数据 页 的 存储 空间 大 致 被 划分 成 了 7 个 部 分 ， 有 的 部 分 占用 的 字 节 数 是 确定 的 ， 
有 的 部 分 占用 的 字 节 数 是 不 确定 的 。 下 边 我 们 用 表格 的 方式 来 大 致 描述 一 下 这 7 个 部 分 都 存储 一 些 喻 内 容 (快速 
的 且 一 眼 就 行 了 ， 后 边 会 详细 啼 明 的 ) : 


名 称 中 文 名 占用 空间 大 小 简单 描述 


File Header 文件 头 部 38 字 节 页 的 一 些 通用 信息 
Page Header 页 面 头 部 56 字 节 数据 页 专 有 的 一 些 信息 
Infimum + Supremum ”最 小 记录 和 最 大 记录 。。” 26 字 节 两 个 虚拟 的 行 记录 
User Records 用 户 记录 不 确定 实际 存储 的 行 记录 内 容 
Free Space 空闲 空间 不 确定 页 中 尚未 使 用 的 空间 
Page Directory 页 面目 录 不 确定 页 中 的 某 些 记 录 的 相对 位 置 
File Trailer 文件 尾部 8 字 节 校 验 页 是 否 完整 


小 贴 士 : 
我 们 接 下 来 并 不 打算 按照 页 中 各 个 部 分 的 出 现 顺序 来 依次 介绍 它们 ， 因 为 各 个 部 分 中 会 出 现 很 多 大 家 目 
前 不 理解 的 概念 ， 这 会 打击 各 位 读 文章 的 信心 与 兴趣 ， 和 希望 各 位 能 接受 这 种 拍摄 手法 一 


5.3 记录 在 页 中 的 存储 





在 页 的 7 个 组 成 部 分 中 ， 我 们 自己 存储 的 记录 会 按照 我 们 指定 的 行 格式 存储 到 User Records 部 分 。 但 是 在 一 开 
始 生成 页 的 时 候 ， 其 实 并 没有 User Records 这 个 部 分 ， 每 当 我 们 插入 一 条 记录 ， 都 会 从 Free Space 部 分 ， 也 就 
是 尚未 使 用 的 存储 空间 中 申请 一 个 记录 大 小 的 空间 划分 到 User Records 部 分 ， 当 Free Space 部 分 的 空间 全 部 
被 User Records 部 分 替代 掉 之 后 ， 也 就 意味 着 这 个 页 使 用 完了 ， 如 果 还 有 新 的 记录 插入 的 话 ， 就 需要 去 申请 新 
的 页 了 ， 这 个 过 程 的 图 示 如 下 : 


/ 新 生成 的 页 : \ 插入 第 1 条 记录 : 插入 第 2 条 记录 : 插入 第 n 条 记录 : 


File Header File Header File Header File Header 


Page Header Page Header Page Header Page Header 


Infimum + supremum Infimum + supremum Infimum + supremum nfimum + Supremum 


User Records 


记录 
User Records se User Records 
记录 2 


Free Space 


Free Space 


Free Space (Free Space 被 用 光 了 ) 


Page Directon Page Directon Page Directory 


File Trailer 














File Trailer File Trailer 








为 了 更 好 的 管理 在 User Records 中 的 这 些 记录 ， InnoDB 可 费 了 一 番 力 气 呢 ， 在 哪 费力 气 了 呢 ? 不 就 是 把 记录 按 
照 指 定 的 行 格式 一 条 一 条 摆 在 User Records 部 分 么 ”其 实 这 话 还 得 从 记录 行 格式 的 记录 头 信息 中 说 起 。 


5.3.1 记录 头 信息 的 秘密 
为 了 故事 的 顺利 发 展 ， 我 们 先 创建 一 个 表 : 


mysql> CREATE TABLE page demo( 

= cl INT， 

> c2 TINT， 

-> c3 VARCHAR(10000), 

二 > PRIMARY KEY (c1) 

-> ) CHARSET=ascii ROW FORMAT=Compact ; 
Query OK，0 rows affected (0. 03 sec) 


这 个 新 创建 的 page_demo 表 有 3 个 列 ， 其 中 cl 和 c2 列 是 用 来 存储 整数 的 ， c3 列 是 用 来 存储 字符 串 的 。 需 要 注 

意 的 是 ， 我 们 把 c1 列 指定 为 主键 ， 所 以 在 具体 的 行 格式 中 InnoDB 就 没 必要 为 我 们 去 创建 那个 所 谓 的 row_id 隐 

藏 列 了 。 而 且 我 们 为 这 个 表 指 定 了 ascii 字符 集 以 及 Compact 的 行 格式 。 所 以 这 个 表 中 记录 的 行 格式 示意 图 就 是 
这 样 的 : 









记录 的 额外 信息 





记录 的 真实 数据 














变 长 字段 长 度 列 表 “NULL 值 列表 ”记录 头 信 息 。 c1 列 的 值 。 transaction_id 列 的 值 。 “roll_pointer 列 的 值 。 c2 列 的 值 。 c3 列 的 值 


习 这 两 个 是 隐藏 列 ) 


“3 — 


预 留 位 1 


heap_no record type 


delete_mask next_record 


min_rec_mask 


从 图 中 可 以 看 到 ， 我 们 特意 把 记录 头 信息 的 5 个 字 节 的 数据 给 标 出 来 了 ， 说 明 它 很 重要 ， 我 们 再 次 先 把 这 些 记 
录 头 信息 中 各 个 属性 的 大 体 意思 浏览 一 下 (我们 目前 使 用 Compact 行 格 式 进行 演示 ) : 


名 称 大 小 单位: 


bit) 1 
预 留 位 1 1 没有 使 用 
预 留 位 2 1 没有 使 用 
delete_mask 1 标记 该 记录 是 否 被 删除 
min_rec_mask 1 B+ 树 的 每 层 非 叶子 节点 中 的 最 小 记录 都 会 添加 该 标记 
n_owned 4 表示 当前 记录 拥有 的 记录 数 
heap_no 13 表示 当前 记录 在 记录 堆 的 位 置信 息 
a 3 表示 当前 记录 的 类 型 ， 0 表示 普通 记录 ， 1 表示 B+ 树 非 叶 节点 记录 ， 2 表示 最 小 记录 ， 3 
表示 最 大 记录 
next_record 16 表示 下 一 条 记录 的 相对 位 置 


由 于 我 们 现在 主要 在 啼 明 记录 头 信息 的 作用 ， 所 以 为 了 大 家 理解 上 的 方便 ， 我 们 只 在 page_demo 表 的 行 格式 演 
示 图 中 画 出 有 关 的 头 信息 属性 以 及 cl 、 c2 、 c3 列 的 信息 (其 他 信息 没 画 不 代表 它们 不 存在 啊 ， 只 是 为 了 理解 
上 的 方便 在 图 中 省 略 了 ~ ) ， 简 化 后 的 行 格式 示意 图 就 是 这 样 : 


page_demo 表 的 行 格式 简化 图 


delete mask min_rec mask nN_owned heap no record type next record 


ob :5 :5:1 
VE 









这 些 是 记录 
头 信息 


下 边 我 们 试 着 向 page_demo 表 中 插入 几 条 记录 : 


mysql> INSERT INTO page demo VALUES(1, 100, ”aaaa ), (2, 200,’bbbb’ )，(3，300，’ cccce’),， 
(4, 400，’ dddd’ ); 

Query OK, 4 rows affected (0. 00 sec) 

Records: 4 Duplicates: 0 VWarnings: 0 


为 了 方便 大 家 分 析 这 些 记录 在 页 的 User Records 部 分 中 是 怎么 表示 的 ,我 把 记录 中 头 信息 和 实际 的 列 数据 都 用 
十 进 制 表示 出 来 了 (其实 是 一 堆 二 进 制 位 ) ， 所 以 这 些 记录 的 示意 图 就 是 : 






第 1 条 记录 : 0 0 0 2 0 32 1 100 'aaaa' | 其 他 信息 






一 一 这 是 User Records 部 分 ) 
delet mask min rec mask nowned hesp_no record type next record i pe A 


第 2 条 记录 : 0 0 0 3 0 32 2 200 'bbbb” “其 他 信息 


第 3 条 记录 : 











delete mask min rec mask nowned heapno record type next record 





看 这 个 图 的 时 候 需 要 注意 一 下 ， 各 条 记录 在 User Records 中 存储 的 时 候 并 没有 空隙 ， 这 里 只 是 为 了 大 家 观看 方 
便 才 把 每 条 记录 单独 画 在 一 行 中 。 我 们 对 照 着 这 个 图 来 看 看 记录 头 信息 中 的 各 个 属性 是 啥 意思 : 


。 delete mask 


这 个 属性 标记 着 当前 记录 是 否 被 删除 ， 占 用 1 个 二 进 制 位 ， 值 为 0 的 时 候 代 表 记 录 并 没有 被 删除 ， 为 1 的 时 
候 代表 记录 被 删除 掉 了 。 


哈 ? 被 删除 的 记录 还 在 页 中 么 ”是 的 ， 摆 在 台面 上 的 和 背地 里 做 的 可 能 大 相 径 庭 ， 你 以 为 它 删 除了 ， 可 它 
还 在 真实 的 磁盘 上 [推手 ] (忽然 想起 冠 希 ~ ) 。 这 些 被 删除 的 记录 之 所 以 不 立即 从 磁盘 上 移 除 ， 是 因为 移 除 
它们 之 后 把 其 他 的 记录 在 磁盘 上 重新 排列 需要 性 能 消耗 ， 所 以 只 是 打 一 个 删除 标记 而 已 ， 所 有 被 删除 掉 的 记 
录 都 会 组 成 一 个 所 谓 的 垃圾 链表 ， 在 这 个 链表 中 的 记录 占用 的 空间 称 之 为 所 谓 的 可 重用 空间 ， 之 后 如 果 有 
新 记录 插入 到 表 中 的 话 ， 可 能 把 这 些 被 删除 的 记录 占用 的 存储 空间 覆盖 掉 。 


小 贴 士 : 
将 这 个 delete_mask 位 设置 为 1 和 将 被 删除 的 记录 加 入 到 垃圾 链表 中 其 实 是 两 个 阶段 ， 我 们 后 边 在 
介绍 事务 的 时 候 会 详细 啼 四 删除 操作 的 详细 过 程 ， 稍 安 勿 躁 。 


























min rec mask 


再 聊 这 个 问题 。 反 正 我 们 自己 插入 的 四 条 记录 的 min_rec_mask 值 都 是 0 ， 意 味 着 它们 都 不 是 B+ 树 的 非 叶 
子 节点 中 的 最 小 记录 。 


n_owned 
这 个 暂时 保密 ， 稍 后 它 是 主角 ~ 
heap no 


这 个 属性 表示 当前 记录 在 本 页 中 的 位 置 ， 从 图 中 可 以 看 出 来 ,我们 插入 的 4 条 记录 在 本 页 中 的 位 置 分 别 
是 : 2 、3 、4、5。 是 不 是 少 了 点 喻 ? 是 的 ， 怎么 不 见 heap_no 值 为 0 和 1 的 记录 呢 ? 


这 其 实 是 设计 InnoDB 的 大 叔 们 玩 的 一 个 小 把 戏 ， 他 们 自动 给 每 个 页 里 边 儿 加 了 两 个 记录 ， 由 于 这 两 个 记录 
并 不 是 我 们 自己 插入 的 ， 所 以 有 时 候 也 称 为 伪 记 录 或 者 虚拟 记录 。 这 两 个 伪 记 录 一 个 代表 最 小 记录 ， 一 
个 代表 最 大 记录 ， 等 一 下 哈 ~， 记 录 可 以 比 大 小 么 ? 


是 的 ， 记 录 也 可 以 比 大 小 ， 对 于 一 条 完整 的 记录 来 说 ， 比 较 记 录 的 大 小 就 是 比较 主键 的 大 小 。 比 方 说 我 们 
插入 的 4 行 记录 的 主键 值 分 别 是 : 1 、 2 、 3 、4 ， 这 也 就 意味 着 这 4 条 记录 的 大 小 从 小 到 大 依次 递增 。 








小 贴 士 : 
请 注意 我 强调 了 对 于 一 条 完整 的 记录 来 说 ， 比 较 记 录 的 大 小 就 相当 于 比 的 是 主键 的 大 小 。 后 边 
我 们 还 会 介绍 只 存储 一 条 记录 的 部 分 列 的 情况 ， 敬 请 期 竺 一 



































但 是 不 管 我 们 向 页 中 揪 入 了 多 少 自己 的 记录 ， 设 计 InnoDB 的 大 叔 们 都 规定 他 们 定义 的 两 条 伪 记 录 分 别 为 最 
小 记录 与 最 大 记录 。 这 两 条 记录 的 构造 十 分 简单 ， 都 是 由 5 字 节 大 小 的 记录 头 信息 和 8 字 节 大 小 的 一 个 固定 
的 部 分 组 成 的 ， 如 图 所 示 





(这 部 分 是 固定 的 ， 代表 单词 infimum' ) 


sm 


\ 加 Re 


Eee 
最 小 记录 : 记录 头 信息 69 6E 66 69 6D 75 6D 00 


最 大 记录 : 记录 头 信息 73 75 70 72 65 6D 75 6D 
Ce | 


jw 





(这 部 分 也 是 固定 的 ， 代表 单词 supremum' ) 





由 于 这 两 条 记录 不 是 我 们 自己 定义 的 记录 ， 所 以 它们 并 不 存放 在 页 的 User Records 部 分 ， 他 们 被 单独 放 在 
一 个 称 为 Infimum + Supremum 的 部 分 ， 如 图 所 示 : 





elese_mask min_rec_ mask n_owned hesp no record type nantresord lete_mask in_rec mask n_owned hesp_no record type nanLrecord 


men 。 0 0 EE 0 2 28 'infimum' 最 大 记录 : 0 0 5 1 3 0 Supremum 








\ 
NS 


se 


Golote asi min rec mask Nowned = hesp po record type next record a a ~ 
第 1 条 记录 : 0 on eo > 0 32 1 100 'aaaa | 其他 信息 (Rm" tu 由 





delete rmas main_ rec mask mowned 。 heap po record type next record 


第 2 条 记录 : 0 0 0 3 0 32 2 200 'bbbb' “其 他 信息 


第 3 条 记录 : 0 0 0 4 0 32 3 300 ‘cccc” “其 他 信息 


-一 








二 Se 
一 一 这 是 User Records 部 分 


第 4 条 记录 : 





从 图 中 我 们 可 以 看 出 来 ， 最 小 记录 和 最 大 记录 的 heap_no 值 分 别 是 0 和 1 ， 也 就 是 说 它们 的 位 置 最 靠 前 。 


record type 


这 个 属性 表示 当前 记录 的 类 型 ， 一 共有 4 种 类 型 的 记录 ， 0 表示 普通 记录 ， 1 表示 B+ 树 非 叶 节 点 记录 ， 2 表 
示 最 小 记录 ， 3 表示 最 大 记录 。 从 图 中 我 们 也 可 以 看 出 来 ， 我 们 自己 插入 的 记录 就 是 普通 记录 ， 它 们 的 
record_type 值 都 是 0 ， 而 最 小 记录 和 最 大 记录 的 record_type 值 分 别 为 2 和 3 。 


至 于 record_type 为 1 的 情况 ， 我 们 之 后 在 说 索引 的 时 候 会 重点 强调 的 。 


next record 


这 玩意 儿 非 常 重要 ， 它 表示 从 当前 记录 的 真实 数据 到 下 一 条 记录 的 真实 数据 的 地 址 偏 移 量 。 比 方 说 第 一 条 记 
录 的 next_record 值 为 32 ， 意 味 着 从 第 一 条 记录 的 真实 数据 的 地 址 处 向 后 找 32 个 字 节 便 是 下 一 条 记录 的 
真实 数据 。 如 果 你 熟悉 数据 结构 的 话 ， 就 立即 明白 了 ， 这 其 实 是 个 链表 ， 可 以 通过 一 条 记录 找到 它 的 下 一 
条 记录 。 但 是 需要 注意 注意 再 注意 的 一 点 是 ， 下 一 条 记录 指 得 并 不 是 按照 我 们 插入 顺序 的 下 一 条 记录 ,而 
是 按照 主键 值 由 小 到 大 的 顺序 的 下 一 条 记录 。 而 且 规定 jnjpmum 思 爱 〈 龙 碟 侣 揽 0 刀 爱 ) 的 下 一 条 记录 就 是 
本 页 中 主键 值 最 小 的 用 户 记录 ， 而 本 页 中 主键 值 最 大 的 用 户 记录 的 下 一 条 记录 就 是 Svpremum 刀 腕 ( 龙 矶 
利和 摆 无 刀 灵 ) ， 为 了 更 形象 的 表示 一 下 这 个 next_record 起 到 的 作用 ， 我 们 用 箭头 来 替代 一 下 
next_record 中 的 地 址 偏 移 量 : 





delete_mask min_rec_mask n_owned heap_no record type next_record 









最 小 记录 : 'infimum' 0 0 5 1 3 0 


delete_mask min_rec_mask n_owned heap no record type next_record 
Supremum 








第 1 条 记录 : 


第 2 条 记录 : 


第 3 条 记录 : 





第 4 条 记录 : 0 0 0 5 0 4 400 'dddd' E3 / 








从 图 中 可 以 看 出 来 ， 我 们 的 记录 按照 主键 从 小 到 大 的 顺序 形成 了 一 个 单 链 表 。 最 大 记录 的 next_record 的 
值 为 0 ， 这 也 就 是 说 最 大 记录 是 没有 下 一 条 记录 了 ， 它 是 这 个 单 链表 中 的 最 后 一 个 节点 。 如 果 从 中 删除 掉 
一 条 记录 ， 这 个 链表 也 是 会 跟着 变化 的 ， 比 如 我 们 把 第 2 条 记录 删 掉 : 


mysql> DELETE FROM page demo WHERE cl = 2; 
Query OK, 1 row affected (0.02 sec) 


删 掉 第 2 条 记录 后 的 示意 图 就 是 : 





(6 


最 小 记录 : 


NS 


olete_mask min rec_mask Nn_owned heap no record type ret_record Selete_mask min_rec_mask n_owned heap no record type next record 
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/第 :条 记录 


第 2 条 记录 : 


一 这 条 记录 被 出 了 ) 


第 3 条 记录 : 


\、 第 4 条 记录 : 


从 图 中 可 以 看 出 来 ， 删 除 第 2 条 记录 前 后 主要 发 生 了 这 些 变化 : 
" 第 2 条 记录 并 没有 从 存储 空间 中 移 除 ， 而 是 把 该 条 记录 的 delete_mask 值 设 置 为 1 。 
= 第 2 条 记录 的 next_record 值 变 为 了 0， 意 味 着 该 记录 没有 下 一 条 记录 了 。 
" 第 1 条 记录 的 next_record 指向 了 第 3 条 记录 。 
。 还 有 一 点 你 可 能 忽略 了 ， 就 是 最 大 记录 的 n_owned 值 从 5 变 成 了 4 ， 关 于 这 一 点 的 变化 我 们 稍 后 会 详 
细 说 明 的 。 


所 以 ， 不 论 我 们 怎么 对 页 中 的 记录 做 增删 改 操作 ，InnoDB 始 终 会 维护 一 条 记录 的 单 链表 ， 链 表 中 的 各 个 
节点 是 按照 主键 值 由 小 到 大 的 顺序 连接 起 来 的 。 


小 贴 士 : 

你 会 不 会 觉得 next_record 这 个 指针 有 点 儿 怪 ， 为 啥 要 指向 记录 头 信息 和 真实 数据 之 间 的 位 置 
呢 ? 为 啥 不 干脆 指向 整 条 记录 的 开头 位 置 ， 也 就 是 记录 的 额外 信息 开头 的 位 置 呢 ? 
因为 这 个 位 置 刚 刚好 ， 疝 左 读 取 就 是 记录 头 信息 ， 向 右 读 取 就 是 真实 数据 。 我 们 前 边 还 说 过 变 
长 字段 长 度 列 表 、NULL 值 列表 中 的 信息 都 是 逆序 存放 ， 这 样 可 以 使 记录 中 位 置 靠 前 的 字段 和 它 
们 对 应 的 字段 长 度 信息 在 内 存 中 的 距离 更 近 ， 可 能 会 提高 高 速 缓存 的 命中 率 。 当 然 如 果 你 看 不 
懂 这 句 话 的 话 就 不 要 勉强 了 ， 果 断 跳 过 一 


再 来 看 一 个 有 意思 的 事情 ， 因 为 主键 值 为 2 的 记录 被 我 们 删 掉 了 ， 但 是 存储 空间 却 没有 回收 ， 如 果 我 们 再 次 把 这 
条 记录 插入 到 表 中 ， 会 发 生 什么 事 呢 ? 


mysql> INSERT INTO page demo VALUES(2, 200,，’ bbbb’ ); 
Query OK, 1 row affected (0.00 sec) 


我 们 看 一 下 记录 的 存储 情况 : 
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从 图 中 可 以 看 到 ， InnoDB 并 没有 因为 新 记录 的 插入 而 为 它 申请 新 的 存储 空间 ， 而 是 直接 复 用 了 原来 被 删除 记录 
的 存储 空间 。 


小 贴 士 : 
当 数 据 页 中 存在 多 条 被 删除 掉 的 记录 时 ， 这 些 记录 的 next_record 属 性 将 会 把 这 些 被 删除 掉 的 记录 组 成 
一 个 垃圾 链表 ， 以 备 之 后 重用 这 部 分 存储 空间 。 








5.4 Page Directory (页 目录 ) 


现在 我 们 了 解 了 记录 在 页 中 按照 主键 值 由 小 到 大 顺序 串联 成 一 个 单 链 表 ， 那 如 果 我 们 想 根 据 主键 值 查找 页 中 的 某 
条 记录 该 咋 办 呢 ? 比 如 说 这 样 的 查询 语句 : 


SELECT x*¥ FROM page demo WHERE cl = 3; 


最 笨 的 办 法 : 从 Infimum 记录 (最 小 记录 ) 开始 ， 沿 着 链表 一 直 往 后 找 ， 总 有 一 天 会 找到 (或 者 找 不 到 [ 摊 
手 ]) ， 在 找 的 时 候 还 能 投机 取 巧 ， 因 为 链表 中 各 个 记录 的 值 是 按照 从 小 到 大 顺序 排列 的 ， 所 以 当 链表 的 某 个 节点 
代表 的 记录 的 主键 值 大 于 你 想 要 查找 的 主键 值 时 ， 你 就 可 以 停止 查找 了 ， 因 为 该 节点 后 边 的 节点 的 主键 值 依次 递 


增 。 


这 个 方法 在 页 中 存储 的 记录 数量 比较 少 的 情况 用 起 来 也 没 哈 问题 ， 比 方 说 现在 我 们 的 表 里 只 有 4 条 自己 插入 的 记 
录 ， 所 以 最 多 找 4 次 就 可 以 把 所 有 记录 都 遍历 一 遍 ， 但 是 如 果 一 个 页 中 存储 了 非常 多 的 记录 ， 这 么 查找 对 性 能 来 
说 还 是 有 损耗 的 ， 所 以 我 们 说 这 种 遍历 查找 这 是 一 个 笨 办 法 。 但 是 设计 InnoDB 的 大 叔 们 是 什么 人 ， 他 们 能 用 这 
么 签 的 办 法 么 ， 当 然 是 要 设计 一 种 更 6 的 查找 方式 唆 ， 他 们 从 书 的 目录 中 找到 了 灵感 。 


我 们 平常 想 从 一 本 书 中 查找 某 个 内 容 的 时 候 ， 一 般 会 先 看 目录 ， 找 到 需要 查找 的 内 容 对 应 的 书 的 页 码 ， 然 后 到 对 
应 的 页 码 查看 内 容 。 设 计 InnoDB 的 大 叔 们 为 我 们 的 记录 也 制作 了 一 个 类 似 的 目录 ， 他 们 的 制作 过 程 是 这 样 的 : 


1. 将 所 有 正常 的 记录 (包括 最 大 和 最 小 记录 ， 不 包括 标记 为 已 删除 的 记录 ) 划分 为 几 个 组 。 

2. 每 个 组 的 最 后 一 条 记录 (也 就 是 组 内 最 大 的 那 条 记录 ) 的 头 信息 中 的 n_owned 属性 表示 该 记录 拥有 多 少 条 记 
录 ， 也 就 是 该 组 内 共有 几 条 记录 。 

3. 将 每 个 组 的 最 后 一 条 记录 的 地 址 偏 移 量 单独 提取 出 来 按 顺序 存储 到 靠近 页 的 尾部 的 地 方 ， 这 个 地 方 就 是 所 
谓 的 Page Directory ， 也 就 是 页 目录 (此 时 应 该 返回 头 看 看 页 面 各 个 部 分 的 图 ) 。 页 面目 录 中 的 这 些 地 址 
偏 移 量 被 称 为 槽 “(英文 名 : Slot ) ， 所 以 这 个 页 面目 录 就 是 由 覃 组 成 的 。 


比方 说 现在 的 page_demo 表 中 正常 的 记录 共有 6 条 ， InnoDB 会 把 它们 分 成 两 组 ， 第 一 组 中 只 有 一 个 最 小 记录 ， 
第 二 组 中 是 剩余 的 5 条 记录 ， 看 下 边 的 示意 图 : 










1 3 0 


win_ ma min ree mask mn_ owned hesp no record type next record eleee_ mesk min Jec_ mask n oveed heap ro record type next record 
"supremum.' 


ana : 





第 2 条 记录 : 


第 3 条 记录 : 


民 : 





Pi 














(这 是 Page preom) 
一 一 有 
| 图 加 
槽 1 槽 0 
(人 rr Er » 
a 一 vv vv 一 一 = vv 一 


从 这 个 图 中 我 们 需要 注意 这 么 几 点 : 


。 现在 页 目录 部 分 中 有 两 个 槽 ， 也 就 意味 着 我 们 的 记录 被 分 成 了 两 个 组 ， 槽 1 中 的 值 是 112 ， 代 表 最 大 记录 
的 地 址 偏 移 量 (就 是 从 页 面 的 0 字 节 开始 数 ， 数 112 个 字 节 ) ; 档 0 中 的 值 是 99 ， 代 表 最 小 记录 的 地 址 偏 移 


里。 
。 注意 最 小 和 最 大 记录 的 头 信息 中 的 n_owned 属性 
， 最 小 记录 的 n_owned 值 为 1 ， 这 就 代表 着 以 最 小 记录 结尾 的 这 个 分 组 中 只 有 1 条 记录 ， 也 就 是 最 小 记录 
本 身 。 
， 最 大 记录 的 n_owned 值 为 5 ， 这 就 代表 着 以 最 大 记录 结尾 的 这 个 分 组 中 只 有 5 条 记录 ， 包 括 最 大 记录 本 
身 还 有 我 们 自己 插入 的 4 条 记录 。 


99 和 112 这 样 的 地 址 偏 移 量 很 不 直观 ， 我 们 用 箭头 指向 的 方式 蔡 代 数字 ， 这 样 更 易于 我 们 理解 ， 所 以 修改 后 的 
示意 图 就 是 这 样 : 





delete mask min rec mask n_ ouned hesp no record type next elete_ mask rin prec ma n_ Owned heap no record type next record 
supremum 


[ Or onl malo ES ‘infimum’ 最 大 记录 : on com ew a Fa (Io 





第 1 条 记录 : 0 0 0 2 0 1 100 ‘aaa8' | 其 他 信息 


第 2 条 记录 : 0 0 0 3 0 2 200 bbbb' | 其 他 信息 


第 3 条 记录 : 0 0 0 4 0 3 300 'Cccc' 其 他 信息 





第 4 条 记录 : 0 0 0 5 0 4 400 dddd” “其 他 信息 











哎呀 ， 咋 看 上 去 怪 怪 的 ， 这 么 乱 的 图 对 于 我 这 个 强迫 症 真是 不 能 忍 ， 那 我 们 就 暂时 不 管 各 条 记录 在 存储 设备 上 的 
排列 方式 了 ， 单 纯 从 逻辑 上 看 一 下 这 些 记 录 和 页 目录 的 关系 : 
上 上 这 1 条 记录 是 一 个 分 组 


GE 


槽 0 ‘iete mask min rec maskmn Owned hep no moeord type Mext 
Es 最 小 记录 ; 硬 午时 于 时 时 续 





这 5 条 记录 是 一 个 分 组 





Supremurm 





这 样 看 就 顺眼 多 了 嘛 ! 为 什么 最 小 记录 的 n_owned 值 为 1， 而 最 大 记录 的 n_owned 值 为 5 呢 ， 这 里 头 有 什么 猫 胰 
么 ? 


是 的 ， 设 计 InnoDB 的 大 叔 们 对 每 个 分 组 中 的 记录 条 数 是 有 规定 的 : 对 于 最 小 记录 所 在 的 分 组 只 能 有 1 条 记录 ， 
最 大 记录 所 在 的 分 组 拥有 的 记录 条 数 只 能 在 1~8 条 之 间 ， 剩 下 的 分 组 中 记录 的 条 数 范 围 只 能 在 是 4~8 条 之 间 。 
所 以 分 组 是 按照 下 边 的 步骤 进行 的 : 


。 初始 情况 下 一 个 数据 页 里 只 有 最 小 记录 和 最 大 记录 两 条 记录 ， 它 们 分 属于 两 个 分 组 。 

。 之 后 每 插入 一 条 记录 ， 都 会 从 页 目录 中 找到 主键 值 比 本 记录 的 主键 值 大 并 且 差 值 最 小 的 槽 ， 然 后 把 该 构 对 
应 的 记录 的 n_owned 值 加 1， 表 示 本 组 内 又 添加 了 一 条 记录 ， 直 到 该 组 中 的 记录 数 等 于 8 个 。 

。 在 一 个 组 中 的 记录 数 等 于 8 个 后 再 插入 一 条 记录 时 ， 会 将 组 中 的 记录 拆 分 成 两 个 组 ， 一 个 组 中 4 条 记录 ， 另 一 
个 5 条 记录 。 这 个 过 程 会 在 页 目录 中 新 增 一 个 槽 来 记录 这 个 新 增 分 组 中 最 大 的 那 条 记录 的 偏 移 量 。 


由 于 现在 page_demo 表 中 的 记录 太 少 ， 无 法 演示 添加 了 页 目录 之 后 加 快 查找 速度 的 过 程 ， 所 以 再 往 page_demo 
表 中 添加 一 些 记录 : 


mysql> INSERT INTO page demo VALUES (5，500， "eeee ), (6, 600, ’ ffff’ )， (7，700， ”gggg )， 
(8,800, ’ hhhh ), (9,900, ”iiii )，(10，1000,， "jjjj ), (11, 1100, "kkkk ), (12,1200, ”1 

111 )，(13，1300， ”mmmm ), (14, 1400, ’nnnn’ ), (15, 1500, ”oooo ), (16, 1600, ’ pppp’ ); 

Query OK, 12 rows affected (0.00 sec) 

Records: 12 Duplicates: 0 Warnings: 0 


哈 ， 我们 一 口气 又 往 表 中 添加 了 12 条 记录 ， 现 在 页 里 边 就 一 共有 18 条 记录 了 (包括 最 小 和 最 大 记录 ) ， 这 些 记录 
被 分 成 了 5 个 组 ， 如 图 所 示 : 
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因为 把 16 条 记录 的 全 部 信息 都 画 在 一 张 图 里 太 占 地 方 ， 让 人 眼花 红 乱 的 ， 所 以 只 保留 了 用 户 记录 头 信息 中 的 
n_owned 和 next_record 属性 ， 也 省 略 了 各 个 记录 之 间 的 箭头 ， 我 没 画 不 等 于 没有 啊 ! 现在 看 怎么 从 这 个 页 目 
录 中 查找 记录 。 因 为 各 个 槽 代表 的 记录 的 主键 值 都 是 从 小 到 大 排序 的 ， 所 以 我 们 可 以 使 用 所 谓 的 二 分 法 来 进行 
快速 查找 。4 个 模 的 编号 分 别 是 : 0 、1 、2 、3 、4 ， 所 以 初始 情况 下 最 低 的 模 就 是 1ow=0 ， 最 高 的 槽 就 是 
high=4 。 比 方 说 我 们 想 找 主键 值 为 6 的 记录 ， 过 程 是 这 样 的 : 


1. 计算 中 间 槽 的 位 置 : (0+4) /2=2 ， 所 以 查看 槽 2 对 应 记录 的 主键 值 为 8 ， 又 因为 8 ”6 ， 所 以 设置 

high=2 ， low 保持 不 变 。 

重新 计算 中 间 槽 的 位 置 : (0+2) /2=1 ， 所 以 查看 槽 1 对 应 的 主键 值 为 4 ， 又 因为 4 《< 6 ， 所 以 设置 

low=1 ， high 保持 不 变 。 

因为 high - low 的 值 为 1， 所 以 确定 主键 值 为 5 的 记录 在 槽 2 对 应 的 组 中 。 此 刻 我 们 需要 找到 槽 2 中 主键 
值 最 小 的 那 条 记录 ， 然 后 沿 着 单 向 链表 遍历 槽 2 中 的 记录 。 但 是 我 们 前 边 又 说 过 ， 每 个 槽 对 应 的 记录 都 是 该 
组 中 主键 值 最 大 的 记录 ， 这 里 槽 2 对 应 的 记录 是 主键 值 为 8 的 记录 ， 怎 么 定位 一 个 组 中 最 小 的 记录 呢 ? 别 忘 
了 各 个 槽 都 是 挨 着 的 ， 我 们 可 以 很 轻易 的 拿 到 槽 1 对 应 的 记录 (主键 值 为 4 ) ， 该 条 记录 的 下 一 条 记录 就 
是 槽 2 中 主键 值 最 小 的 记录 ， 该 记录 的 主键 值 为 5 。 所 以 我 们 可 以 从 这 条 主键 值 为 5 的 记录 出 发 ,遍历 模 
2 中 的 各 条 记录 ， 直 到 找到 主键 值 为 6 的 那 条 记录 即 可 。 由 于 一 个 组 中 包含 的 记录 条 数 只 能 是 1~8 条 ， 所 以 
遍历 一 个 组 中 的 记录 的 代价 是 很 小 的 。 


所 以 在 一 个 数据 页 中 查找 指定 主键 值 的 记录 的 过 程 分 为 两 步 : 


1. 通过 二 分 法 确定 该 记录 所 在 的 槽 ， 并 找到 该 槽 中 主键 值 最 小 的 那 条 记录 。 
2. 通过 记录 的 next_record 属性 遍历 该 模 所 在 的 组 中 的 各 个 记录 。 


小 贴 士 : 
如 果 你 不 知道 二 分 法 是 个 什么 东西 ， 找 个 基础 算法 书 看 看 吧 。 什 么 ? 算法 书写 的 看 不 懂 ? 等 我 ~ 
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5.5 Page Header (页 面 头 部 ) 


设计 InnoDB 的 大 叔 们 为 了 能 得 到 一 个 数据 页 中 存储 的 记录 的 状态 信息 ， 比 如 本 页 中 已 经 仓储 了 多 少 条 记录 ， 第 
一 条 记录 的 地 址 是 什么 ， 页 目录 中 存储 了 多 少 个 槽 等 等 ， 特 意 在 页 中 定义 了 一 个 叫 Page Header 的 部 分 ， 它 是 
页 结构 的 第 二 部 分 ， 这 个 部 分 占用 固定 的 56 个 字 节 ， 专 门 存储 各 种 状态 信息 ， 具 体 各 个 字 节 都 是 干 嘛 的 看 下 





PAGE N_DIR_SLOTS ”2 字 节 在 页 目录 中 的 横 数 量 
PAGE_HEAP_TOP 2 字 节 还 未 使 用 的 空间 最 小 地 址 ， 也 就 是 说 从 该 地 址 之 后 就 是 Free Space 
PAGE N_HEAP 2 字 节 本 页 中 的 记录 的 数量 (包括 最 小 和 最 大 记录 以 及 标记 为 删除 的 记录 ) 
PACE FREE 2 字 节 第 一 个 已 经 标记 为 删除 的 记录 地 址 (各 个 已 删除 的 记录 通过 next_record 也 会 组 成 一 个 单 链 
表 ， 这 个 单 链表 中 的 记录 可 以 被 重新 利用 ) 
PAGE GARBAGE 2 字 节 已 删除 记录 占用 的 字 节 数 
PAGE_ LAST_INSERT ”2 字 节 最 后 插入 记录 的 位 置 
PAGE _ DIRECTION 2 字 节 记录 插入 的 方向 
PAGE N_DIRECTION ”2 字 节 一 个 方向 连续 插入 的 记录 数量 
PAGE N_RECS 2 字 节 该 页 中 记录 的 数量 (不 包括 最 小 和 最 大 记录 以 及 被 标记 为 删除 的 记录 ) 
PAGE MAX_TRX_ID 8 字 节 修改 当前 页 的 最 大 事务 ID， 该 值 仅 在 二 级 索引 中 定义 
PAGE_LEVEL 2 字 节 当前 页 在 B+ 树 中 所 处 的 层级 
PAGE INDEX ID 8 字 节 索引 ID， 表 示 当 前 页 属于 哪个 索引 


PAGE BTR SEG LEAF 10 B+ 树 叶子 段 的 头 部 信息 ， 仅 在 B+ 树 的 Root 页 定义 


PAGE BTR SEG TOP 1 B+ 树 非 叶子 段 的 头 部 信息 ， 仅 在 B+ 树 的 Root 页 定义 


导 娄 
十 二 


如 果 大 家 认真 看 过 前 边 的 文章 ， 从 PAGE N_DIR SLOTS 到 PAGE _ LAST INSERT 以 及 PAGE N_RECS 的 意思 大 家 一 定 
是 清楚 的 ， 如 果 不 清 楚 ， 对 不 起 ， 你 应 该 回头 再 看 一 遍 前 边 的 文章 。 剩 下 的 状态 信息 看 不 明白 不 要 着 急 ， 饭 要 一 
口 一 口吃 ， 东 西 要 一 点 一 点 学 (一 定 要 稍 安 勿 躁 哦 ， 不 要 被 这 些 名 词 吓 到 ) 。 在 这 里 我 们 先 啼 忠 一 下 
PAGE_DIRECTION 和 PAGE_N_DIRECTION 的 意思 


。 PAGE DIRECTION 


假如 新 插入 的 一 条 记录 的 主键 值 比 上 一 条 记录 的 主键 值 大 ， 我 们 说 这 条 记录 的 插入 方向 是 右边 ， 反 之 则 是 左 
边 。 用 来 表示 最 后 一 条 记录 插入 方向 的 状态 就 是 PAGE DIRECTION 。 
。 PAGE N DIRECTION 


假设 连续 几 次 插入 新 记录 的 方向 都 是 一 致 的 ， InnoDB 会 把 沿 着 同一 个 方向 插入 记录 的 条 数 记 下 来 ， 这 个 条 
数 就 用 PAGE_N_DIRECTION 这 个 状态 表示 。 当 然 ， 如 果 最 后 一 条 记录 的 插入 方向 改变 了 的 话 ， 这 个 状态 的 值 
会 被 清 零 重 新 统计 。 




















至 于 我 们 没 提 到 的 那些 属性 ， 我 没 说 是 因为 现在 不 需要 大 家 知道 。 不 要 着 急 ， 当 我 们 学 边 的 内 容 ， 你 再 
头 看 ,一 切 都 是 那么 清 

小 贴 士 : 

说 到 这 个 有 些 东西 后 边 我 们 学 过 后 回头 看 就 很 清晰 的 事 儿 不 禁 让 我 想到 了 乔布斯 在 斯 坦 福 大 学 的 演讲 ， 





摆 一 下 原文 ; 


“You can t connect the dots looking forward; you can only connect them looking backwards 








So you have to trust that the dots will somehow connect in your future. You have to trust i 
n something - your gut, destiny, life, karma, whatever. This approach has never let me dow 
n, and it has made all the difference in my life.” 

上 边 这 上 段 话 纯 属 心血 来 潮 写 的 ， 大 意 是 坚持 做 自己 喜欢 的 事 儿 ， 你 在 做 的 时 候 可 能 并 不 能 搞 清楚 这 些 事 
儿 对 自己 之 后 的 人 生 有 啥 影响 ， 但 当 你 一 路 走 来 回头 看 时 ， 一 切 都 是 那么 清晰 ， 就 像 是 命中 注定 的 一 
样 。 上 述 内 容 跟 MySQL 毫 无 干系 ， 请 忽略 一 
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5.6 File Header (文件 头 部 ) 


上 边 噶 路 的 Page Header 是 专门 针对 数据 页 记录 的 各 种 状态 信息 ， 比 方 说 页 里 头 有 多 少 个 记录 了 呀 ， 有 多 少 个 
槽 了 呀 。 我 们 现在 描述 的 File Header 针对 各 种 类 型 的 页 都 通用 ， 也 就 是 说 不 同类 型 的 页 都 会 以 File Header 作 
为 第 一 个 组 成 部 分 ， 它 描述 了 一 些 针对 各 种 页 都 通用 的 一 些 信息 ， 比 方 说 这 个 页 的 编号 是 多 少 ， 它 的 上 一 个 页 、 
下 一 个 页 是 谁 啦 吧 啦 吧 啦 ~ 这 个 部 分 占用 固定 的 38 个 字 节 ， 是 由 下 边 这 些 内 容 组 成 的 : 


占用 空间 大 7 
名 称 小 描述 
FIL PAGE SPACE OR CHKSUM 4 字 节 页 的 校 验 和 (checksum 值 ) 
FIL PAGE OFFSET 4 字 节 页 号 
FIL PAGE PREV 4 字 节 上 一 个 页 的 页 号 
FIL PAGE NEXT 4 字 节 下 一 个 页 的 页 号 


页 面 被 最 后 修改 时 对 应 的 日 志 序 列 位 置 (英文 名 是 : Log Sequence 





FIL PAGE LSN 8 字 节 Nambery 
FIL PAGE_TYPE 2 字 节 该 页 的 类 型 
FIL PAGE FILE FLUSH_LSN 8 字 节 仅 在 系统 表 空 间 的 一 个 页 中 定义 ， 代 表 文 件 至 少 被 刷新 到 了 对 应 的 LSN 值 
FIL PAGE ARCH LOG NO OR SPACE ID 4 字 节 页 属于 哪个 表 空间 





对 照 着 这 个 表格 ,我 们 看 几 个 目前 比较 重要 的 部 分 : 
。 FIL PAGE SPACE OR CHKSUM 


这 个 代表 当前 页 面 的 校 验 和 (checksum) 。 哈 是 个 校 验 和 ? 就 是 对 于 一 个 很 长 很 长 的 字 节 串 来 说 ， 我 们 会 
通过 某 种 算法 来 计算 一 个 比较 短 的 值 来 代表 这 个 很 长 的 字 节 串 ， 这 个 比较 短 的 值 就 称 为 校 验 和 。 这 样 在 比 
较 两 个 很 长 的 字 节 串 之 前 先 比较 这 两 个 长 字 节 串 的 校 验 和 ， 如 果 校 输 和 都 不 一 样 两 个 长 字 节 串 肯定 是 不 同 
的 ， 所 以 省 去 了 直接 比较 两 个 比较 长 的 字 节 串 的 时 间 损 耗 。 

FIL PAGE OFFSET 





每 一 个 页 都 有 一 个 单独 的 页 号 ， 就 跟 你 的 身份 证 号 码 一 样 ， InnoDB 通过 页 号 来 可 以 唯一 定位 一 个 页 。 
FIL PAGE TYPE 


这 个 代表 当前 页 的 类 型 ,我 们 前 边 说 过 ， InnoDB 为 了 不 同 的 目的 而 把 页 分 为 不 同 的 类 型 ， 我 们 上 边 介 绍 的 
其 实 都 是 存储 记录 的 数据 页 ， 其 实 还 有 很 多 别 的 类 型 的 页 ， 具 体 如 下 表 : | 类 型 名 称 | 十 六 进 制 | 描述 | |:--:|:- 
-小 --:| | FIL_PAGE_TYPE_ALLOCATED |0x0000| 最 新 分 配 ， 还 没 使 用 | | FIL PAGE UNDO_L0G |0x0002|Undo 日 志 页 | 
| FIL_PAGE_INODE |0x0003| 段 信息 节点 | | FIL_ PAGE _IBUF_FREE LIST |0x0004|Insert Buffer 空 闲 列表 | 

| FIL_ PAGE IBUF_BITMAP |0x0005|Insert Buffer 位 图 | | FIL_PAGE_TYPE SYS |0x0006| 系 统 页 | 

| FIL PAGE TYPE _TRX_SYS |0x0007| 事 务 系统 数据 | | FIL_PAGE TYPE _FSP_HDR |0x0008| 表 空间 头 部 信息 | 

| FIL_PAGE_TYPE_XDES |0x0009| 扩 展 描 述 页 | | FIL_PAGE TYPE _BLOB |0x000AIBLOB 页 | 

| FIL_ PAGE_INDEX |0x45BF| 索 引 页 ， 也 就 是 我 们 所 说 的 数据 页 | 


我 们 存放 记录 的 数据 页 的 类 型 其 实 是 FIL PAGE_INDEX ， 也 就 是 所 谓 的 索引 页 。 至 于 喻 是 个 索引 ， 且 听 下 回 
分 解 ~ 
FIL PAGE PREV 和 FIL PAGE NEXT 











我 们 前 边 强调 过 ， InnoDB 都 是 以 页 为 单位 存放 数据 的 ， 有 时候 我 们 存放 某 种 类 型 的 数据 占用 的 空间 非常 大 

(比方 说 一 张 表 中 可 以 有 成 干 上 万 条 记录 ) ， InnoDB 可 能 不 可 以 一 次 性 为 这 么 多 数据 分 配 一 个 非常 大 的 存 
储 空间 ， 如 果 分 散 到 多 个 不 连续 的 页 中 存储 的 话 需要 把 这 些 页 关联 起 来 ， FIL_PAGE_PREV 和 FIL _PAGE_NEXT 
就 分 别 代表 本 页 的 上 一 个 和 下 一 个 页 的 页 号 。 这 样 通过 建立 一 个 双向 链表 把 许 许多 多 的 页 就 都 串联 起 来 了 ， 


而 无 需 这 些 页 在 物理 上 真正 连 着 。 需 要 注意 的 是 ， 并 不 是 所 有 类 型 的 页 都 有 上 一 个 和 下 一 个 页 的 属性 ， 不 过 
我 们 本 集中 踪 切 的 数据 页 (也 就 是 类 型 为 FIL PAGE_INDEX 的 页 ) 是 有 这 两 个 属性 的 ， 所 以 所 有 的 数据 页 其 
实 是 一 个 双 链 表 ， 就 像 这 样 : 


数据 页 1 数据 页 2 数据 页 3 数据 页 n 


File Header File Header | File Header File Header 
Page Header Page Header Page Header Page Header 


User Records User Records User Records User Records 


Free Space Free Space Free Space Free Space 


Page Directory Page Directory Page Directory Page Directory 
File Tailer File Tailer File Tailer File Tailer 





关于 File Header 的 其 他 属性 我 们 暂时 用 不 到 ， 等 用 到 的 时 候 再 提 哈 ~ 


5.7 File Trailer 


我 们 知道 InnoDB 人 存储 引擎 会 把 数据 存储 到 磁盘 上 ， 但 是 磁盘 速度 太 慢 ， 需 要 以 页 为 单位 把 数据 加 载 到 内 存 中 处 
理 ， 如 果 该 页 中 的 数据 在 内 存 中 被 修改 了 ， 那 么 在 修改 后 的 某 个 时 间 需 要 把 数据 同步 到 磁盘 中 。 但 是 在 同步 了 一 
半 的 时 候 中 断 电 了 咋 办 ， 这 不 是 莫名 篮 炊 么 ”为 了 检测 一 个 页 是 否 完整 (也 就 是 在 同步 的 时 候 有 没有 发 生 只 同步 
一 半 的 篮 炊 情况 ) ， 设 计 InnoDB 的 大 叔 们 在 每 个 页 的 尾部 都 加 了 一 个 File Trailer 部 分 ， 这 个 部 分 由 8 个 字 

节 组 成 ， 可 以 分 成 2 个 小 部 分 : 


。 前 4 个 字 节 代表 页 的 校 验 和 


这 个 部 分 是 和 File Header 中 的 校 验 和 相对 应 的 。 每 当 一 个 页 面 在 内 存 中 修改 了 ， 在 同步 之 前 就 要 把 它 的 校 
验 和 算出 来 ， 因 为 File Header 在 页 面 的 前 边 ， 所 以 校 验 和 会 被 首先 同步 到 磁盘 ， 当 完全 写 完 时 ， 校 验 和 也 
会 被 写 到 页 的 尾部 ， 如 果 完 全 同步 成 功 ， 则 页 的 首部 和 尾部 的 校 验 和 应 该 是 一 致 的 。 如 果 写 了 一 半 儿 断 电 
了 ， 那 么 在 File Header 中 的 校 验 和 就 代表 着 已 经 修改 过 的 页 ， 而 在 File Trialer 中 的 校 验 和 代表 着 原先 
的 页 ， 二 者 不 同 则 意味 着 同步 中 间 出 了 错 。 

后 4 个 字 节 代表 页 面 被 最 后 修改 时 对 应 的 日 志 序列 位 置 (LSN) 


这 个 部 分 也 是 为 了 校 验 页 的 完整 性 的 ， 只 不 过 我 们 目前 还 没 说 LSN 是 个 什么 意思 ， 所 以 大 家 可 以 先 不 用 管 这 
个 属性 。 


这 个 File Trailer 与 File Header 类 似 ， 都 是 所 有 类 型 的 页 通用 的 。 


5.8 总 结 


1. InnoDB 为 了 不 同 的 目的 而 设计 了 不 同类 型 的 页 ， 我 们 把 用 于 存放 记录 的 页 叫做 数据 页 。 
2. 一 个 数据 页 可 以 被 大 致 划分 为 7 个 部 分 ， 分 别 是 


。 File Header ， 表 示 页 的 一 些 通用 信息 ， 占 固定 的 38 字 节 。 

。 Page Header ， 表 示 数 据 页 专 有 的 一 些 信息 ， 占 固定 的 56 个 字 节 。 

。 Infimum + Supremum ， 两 个 虚拟 的 伪 记 录 ， 分 别 表示 页 中 的 最 小 和 最 大 记录 ， 占 固定 的 26 个 字 节 。 
。 User Records : 真实 存储 我 们 插入 的 记录 的 部 分 ， 大 小 不 固定 。 

。 Free Space : 页 中 尚未 使 用 的 部 分 ， 大 小 不 确定 。 


。 Page Directory : 页 中 的 某 些 记录 相对 位 置 ， 也 就 是 各 个 槽 在 页 面 中 的 地 址 偏 移 量 ， 大 小 不 固定 ， 插 
入 的 记录 越 多 ， 这 个 部 分 占用 的 空间 越 多 。 
。 File Trailer : 用 于 检验 页 是 否 完整 的 部 分 ， 占 用 固定 的 8 个 字 节 。 
3. 每 个 记录 的 头 信息 中 都 有 一 个 next_record 属性 ， 从 而 使 页 中 的 所 有 记录 串联 成 一 个 单 链表 。 
4.，InnoDB 会 为 把 页 中 的 记录 划分 为 若干 个 组 ， 每 个 组 的 最 后 一 个 记录 的 地 址 偏 移 量 作为 一 个 槽 ， 存 放 在 
Page Directory 中 ， 所 以 在 一 个 页 中 根据 主键 查找 记录 是 非常 快 的 ， 分 为 两 步 : 
。 通过 二 分 法 确定 该 记录 所 在 的 模 。 
。 通过 记录 的 next_record 属 性 遍历 该 槽 所 在 的 组 中 的 各 个 记录 。 
5. 每 个 数据 页 的 File Header 部 分 都 有 上 一 个 和 下 一 个 页 的 编号 ， 所 以 所 有 的 数据 页 会 组 成 一 个 双 链 表 。 
6. 为 保证 从 内 存 中 同步 到 磁盘 的 页 的 完整 性 ， 在 页 的 首部 和 尾部 都 会 存储 页 中 数据 的 校 验 和 和 页 面 最 后 修改 时 
对 应 的 LSN 值 ， 如 果 首 部 和 尾部 的 校 验 和 和 LSN 值 校 验 不 成 功 的话 ， 就 说 明 同 步 过 程 出 现 了 问题 。 


6 第 6 章 快速 查询 的 秘籍 -B+ 树 索引 


标签 : _ MySQL 是 怎样 运行 的 


前 边 我 们 详细 路 明 了 InnoDB 数据 页 的 7 个 组 成 部 分 ， 知 道 了 各 个 数据 页 可 以 组 成 一 个 双向 链表 ， 而 每 个 数据 页 
中 的 记录 会 按照 主键 值 从 小 到 大 的 顺序 组 成 一 个 单 向 链表 ， 每 个 数据 页 都 会 为 存储 在 它 里 边 儿 的 记录 生成 一 个 

页 目录 ， 在 通过 主键 查找 某 条 记录 的 时 候 可 以 在 页 目录 中 使 用 二 分 法 快速 定位 到 对 应 的 槽 ， 然 后 再 遍历 该 权 对 
应 分 组 中 的 记录 即 可 快速 找到 指定 的 记录 (如 果 你 对 这 段 话 有 一 丁点 儿 疑 惑 ， 那 么 接 下 来 的 部 分 不 适合 你 ， 返 回 
去 看 一 下 数据 页 结构 吧 ) 。 页 和 记录 的 关系 示意 图 如 下 : 


页 c 
其 中 页 a、 页 b、 页 c … 页 n 这 些 页 可 以 不 在 物理 结构 上 相连 ， 只 要 通过 双向 链表 相关 联 即 可 。 


6.1 没有 索引 的 查找 


本 集 的 主题 是 索引 ， 在 正式 介绍 索引 之 前 ， 我 们 需要 了 解 一 下 没有 索引 的 时 候 是 怎么 查找 记录 的 。 为 了 方便 大 
家 理解 ， 我 们 下 边 先 只 踪 切 搜索 条 件 为 对 某 个 列 精确 匹配 的 情况 ， 所 谓 精 确 匹 配 ， 就 是 搜索 条 件 中 用 等 于 = 连接 
起 的 表达 式 ， 比 如 这 样 : 


SELECT [ 列 名 列表 ] FROM 表 名 WHERE 列 名 = xxx; 





页 a 页 b 





6.1.1 在 一 个 页 中 的 查找 


假设 目前 表 中 的 记录 比较 少 ， 所 有 的 记录 都 可 以 被 存放 到 一 个 页 中 ， 在 查找 记录 的 时 候 可 以 根据 搜索 条 件 的 不 同 
分 为 两 种 情况 : 


。 以 主键 为 搜索 条 件 


这 个 查找 过 程 我 们 已 经 很 熟悉 了 ， 可 以 在 页 目录 中 使 用 二 分 法 快速 定位 到 对 应 的 构 ， 然 后 再 遍历 该 槽 对 应 
分 组 中 的 记录 即 可 快速 找到 指定 的 记录 。 
。 以 其 他 列 作为 搜索 条 件 


对 非 主键 列 的 查找 的 过 程 可 就 不 这 么 幸运 了 ， 因 为 在 数据 页 中 并 没有 对 非 主键 列 建立 所 谓 的 页 目录 ， 所 以 
我 们 无 法 通过 二 分 法 快速 定位 相应 的 槽 。 这 种 情况 下 只 能 从 最 小 记录 开始 依次 遍历 单 链表 中 的 每 条 记录 ， 
然后 对 比 每 条 记录 是 不 是 符合 搜索 条 件 。 很 显然 ， 这 种 查找 的 效率 是 非常 低 的 。 


6.1.2 在 很 多 页 中 查找 


大 部 分 情况 下 我 们 表 中 存放 的 记录 都 是 非常 多 的 ， 需 要 好 多 的 数据 页 来 存储 这 些 记录 。 在 很 多 页 中 查找 记录 的 话 
可 以 分 为 两 个 步骤 : 


1. 定位 到 记录 所 在 的 页 。 
2. 从 所 在 的 页 内 中 查找 相应 的 记录 。 


在 没有 索引 的 情况 下 ， 不 论 是 根据 主键 列 或 者 其 他 列 的 值 进行 查找 ， 由 于 我 们 并 不 能 快速 的 定位 到 记录 所 在 的 
页 ， 所 以 只 能 从 第 一 个 页 沿 着 双向 链表 一 直 往 下 找 ， 在 每 一 个 页 中 根据 我 们 刚刚 啼 明 过 的 查找 方式 去 查找 指定 的 
记录 。 因 为 要 人 遍历 所 有 的 数据 页 ， 所 以 这 种 方式 显然 是 超级 耗 时 的 ， 如 果 一 个 表 有 一 亿 条 记录 ， 使 用 这 种 方式 去 
查找 记录 那 要 等 到 猴 年 马 月 才能 等 到 查找 结果 。 所 以 祖国 和 人 民 都 在 期 盼 一 种 能 高 效 完成 搜索 的 方法 ， 索引 同 
志 就 要 亮相 登台 了 。 


6.2 索引 
为 了 故事 的 顺利 发 展 ， 我 们 先 建 一 个 表 : 


mysql> CREATE TABLE index demo( 

所 > cl INT， 

= c2 INT, 

> c3 CHAR(1), 

= PRIMARY KEY(c1) 

-> ) ROW FORMAT = Compact; 
Query OK, 0 rows affected (0. 03 sec) 


这 个 新 建 的 index_demo 表 中 有 2 个 INT 类 型 的 列 ，1 个 CHAR (1) 类 型 的 列 ， 而 且 我 们 规定 了 cl 列 为 主键 ， 这 个 
表 使 用 Compact 行 格 式 来 实际 存储 记录 的 。 为 了 我 们 理解 上 的 方便 ， 我 们 简化 了 一 下 index_demo 表 的 行 格式 示 


意图 : 


record type next record ci 列 c2 列 c3 列 其 他 信息 













这 个 表示 记录 的 类 型 
这 个 表示 记录 的 其 他 信息 


这 个 表示 记录 的 下 一 条 记录 这 几 个 表示 记录 的 各 个 列 值 





我 们 只 在 示意 图 里 展示 记录 的 这 几 个 部 分 : 


。 record type : 记录 头 信息 的 一 项 属性 ， 表 示 记 录 的 类 型 ， 0 表示 普通 记录 、 2 表示 最 小 记录 、 3 表示 最 
大 记录 、 1 我 们 还 没 用 过 ， 等 会 再 说 ~ 

。 next_record : 记录 头 信息 的 一 项 属性 ， 表 示 下 一 条 地 址 相对 于 本 条 记录 的 地 址 偏 移 量 ， 为 了 方便 大 家 理 
解 ， 我 们 都 会 用 箭头 来 表明 下 一 条 记录 是 谁 。 

。 各 个 列 的 值 : 这 里 只 记录 在 index_demo 表 中 的 三 个 列 , 分 别 是 cl 、 c2 和 c3 。 

。 其 他 信息 : 除了 上 述 3 种 信息 以 外 的 所 有 信息 ， 包 括 其 他 隐藏 列 的 值 以 及 记录 的 额外 信息 。 


为 了 节省 篇 幅 ， 我 们 之 后 的 示意 图 中 会 把 记录 的 其 他 信息 这 个 部 分 省 略 掉 ， 因 为 它 占 地 方 并 且 不 会 有 什么 观赏 
效果 。 另 外 ， 为 了 方便 理解 ， 我 们 觉得 把 记录 坚 着 放 看 起 来 感觉 更 好 ， 所 以 将 记录 格式 示意 图 的 其 他 信息 去 掉 
并 把 它 竖 起 来 的 效果 就 是 这 样 : 

































这 个 表示 记录 的 类 型 
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这 个 表示 记录 的 下 一 条 记录 


用 To? 


[EX 


这 几 个 表示 记录 的 各 个 列 值 


赋 8? 





把 一 些 记 录放 到 页 里 边 的 示意 图 就 是 : 









(这 是 最 大 记录 ， record type=3 ) 


人 过 是 最 小 记录 ， record type=2 
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(< 这些 是 普通 的 用 户 记录 ，record type=0 





6.2.1 一 个 简单 的 索引 方案 


回 到 正题 ， 我 们 在 根据 某 个 搜索 条 件 查找 一 些 记录 时 为 什么 要 人 遍历 所 有 的 数据 页 呢 y 因为 各 个 页 中 的 记录 并 没有 
规律 ， 我 们 并 不 知道 我 们 的 搜索 条 件 匹配 哪些 页 中 的 记录 ， 所 以 不 竹 不 依次 遍历 所 有 的 数据 页 。 所 以 如 果 我 们 
想 快 速 的 定位 到 需要 查找 的 记录 在 哪些 数据 页 中 该 咋 办 ? 还 记得 我 们 为 根据 主键 值 快速 定位 一 条 记录 在 页 中 的 位 
置 而 设立 的 页 目录 么 ”我 们 也 可 以 想 办 法 为 快速 定位 记录 所 在 的 数据 页 而 建立 一 个 别 的 目录 ， 建 这 个 目录 必须 完 
成 下 边 这 些 事 儿 : 


。 下 一 个 数据 页 中 用 户 记录 的 主键 值 必须 大 于 上 一 个 页 中 用 户 记录 的 主键 值 。 


为 了 故事 的 顺利 发 展 ， 我 们 这 里 需要 做 一 个 假设 : 假设 我 们 的 每 个 数据 页 最 多 能 存放 3 条 记录 (实际 上 一 个 
数据 页 非常 大 ， 可 以 存放 下 好 多 记录 ) 。 有 了 这 个 假设 之 后 我 们 向 index_demo 表 插 入 3 条 记录 : 
mysql> INSERT INTO index demo VALUES(1, 4,  )，(3，9， "dd ), (5, 3, "y ); 


Query OK, 3 rows affected (0.01 sec) 
Records: 3 Duplicates: 0 VWarnings: 0 


那么 这 些 记录 已 经 按照 主键 值 的 大 小 串联 成 一 个 单 向 链表 了 ， 如 图 所 示 : 





从 图 中 可 以 看 出 来 ， index_demo 表 中 的 3 条 记录 都 被 插入 到 了 编号 为 10 的 数据 页 中 了 。 此 时 我 们 再 来 插入 
一 条 记录 : 


mysql> INSERT INTO index demo VALUES(4, 4, "a ); 
Query OK, 1 row affected (0.00 sec) 


因为 页 10 最 多 只 能 放 3 条 记录 ， 所 以 我 们 不 得 不 再 分 配 一 个 新 页 : 





哮 ” 怎么 分 配 的 页 号 是 28 呀 ， 不 应 该 是 11 么 ”再 次 强调 一 遍 ， 新 分 配 的 数据 页 编号 可 能 并 不 是 连续 的 ， 也 
就 是 说 我 们 使 用 的 这 些 页 在 存储 空间 里 可 能 并 不 挨 着 。 它 们 只 是 通过 维护 着 上 一 个 页 和 下 一 个 页 的 编号 而 建 
立 了 链表 关系 。 另 外 ， 页 10 中 用 户 记录 最 大 的 主键 值 是 5 ， 而 页 28 中 有 一 条 记录 的 主键 值 是 4 ， 因 为 5 
> 4 ， 所 以 这 就 不 符合 下 一 个 数据 页 中 用 户 记录 的 主键 值 必 须 大 于 上 一 个 页 中 用 户 记录 的 主键 值 的 要 求 ， 所 
以 在 插入 主键 值 为 4 的 记录 的 时 候 需 要 伴随 着 一 次 记录 移动 ， 也 就 是 把 主键 值 为 5 的 记录 移动 到 页 28 中 ， 
然后 再 把 主键 值 为 4 的 记录 插入 到 页 10 中 ， 这 个 过 程 的 示意 图 如 下 : 






第 一 步 : a 
将 主键 值 为 5 的 记录 移动 到 页 28 
-华丽 丽 的 分 割 线 
和 -上 
2 二 0 二 0 时 0 思 3 







将 主键 值 为 4 的 记录 插入 到 页 10 





这 个 过 程 表 明了 在 对 页 中 的 记录 进行 增删 改 操作 的 过 程 中 ， 我 们 必须 通过 一 些 诸如 记录 移动 的 操作 来 始终 保 
证 这 个 状态 一 直 成 立 : 下 一 个 数据 页 中 用 户 记录 的 主键 值 必须 大 于 上 一 个 页 中 用 户 记录 的 主键 值 。 这 个 过 程 
我 们 也 可 以 称 为 页 分 裂 。 

。 给 所 有 的 页 建立 一 个 目录 项 。 


由 于 数据 页 的 编号 可 能 并 不 是 连续 的 ， 所 以 在 向 index_demo 表 中 插入 许多 条 记录 后 ， 可 能 是 这 样 的 效果 : 





因为 这 些 16KB 的 页 在 物理 存储 上 可 能 并 不 挨 着 ， 所 以 如 果 想 从 这 么 多 页 中 根据 主键 值 快 速 定位 基 些 记录 所 
在 的 页 ， 我 们 需要 给 它们 做 个 目录 ， 每 个 页 对 应 一 个 目录 项 ， 每 个 目录 项 包括 下 边 两 个 部 分 : 

= 页 的 用 户 记录 中 最 小 的 主键 值 ， 我 们 用 key 来 表示 。 

" 页 号 ,我 们 用 page_no 表示 。 


所 以 我 们 为 上 边 几 个 页 做 好 的 目录 就 像 这 样子 : 


目录 项 1 ”目录 项 2 目录 项 3 目录 项 4 


hs 


20 100 209 220 300 
二 一 一 一 < 一 一 -一 


以 页 28 为 例 ， 它 对 应 目录 项 2 ， 这 个 目录 项 中 包含 着 该 页 的 页 号 28 以 及 该 页 中 用 户 记录 的 最 小 主键 
值 5 。 我 们 只 需要 把 几 个 目录 项 在 物理 存储 器 上 连续 存储 ， 比 如 把 他 们 放 到 一 个 数组 里 ， 就 可 以 实现 根 
据 主 键 值 快速 查找 某 条 记录 的 功能 了 。 比 方 说 我 们 想 找 主键 值 为 20 的 记录 ， 具 体 查找 过 程 分 两 步 : 
， 先 从 目录 项 中 根据 二 分 法 快速 确定 出 主键 值 为 20 的 记录 在 目录 项 3 中 (因为 12《 20 < 209 ) ， 它 对 
应 的 页 是 页 9 。 

。 再 根据 前 边 说 的 在 页 中 查找 记录 的 方式 去 页 9 中 定位 具体 的 记录 


至 此 ， 针 对 数据 页 做 的 简易 目录 就 搞定 了 。 不 过 忘 了 说 了 ， 这 个 目录 有 一 个 别名 ， 称 为 索引 。 


key: 


page_no: 






6.2.2 InnoDB 中 的 索引 方案 


上 边 之 所 以 称 为 一 个 简易 的 索引 方案 ， 是 因为 我 们 为 了 在 根据 主键 值 进行 查找 时 使 用 二 分 法 快速 定位 具体 的 目录 
项 而 假设 所 有 目录 项 都 可 以 在 物理 存储 器 上 连续 存储 ， 但 是 这 样 做 有 几 个 问题 


。 ”InnoDB 是 使 用 页 来 作为 管理 存储 空间 的 基本 单位 ， 也 就 是 最 多 能 保证 16KB 的 连续 存储 空间 ， 而 随 着 表 中 记 
录 数 量 的 增多 ， 需 要 非常 大 的 连续 的 存储 空间 才能 把 所 有 的 目录 项 都 放下 ， 这 对 记录 数量 非常 多 的 表 是 不 现 
实 的 。 

。 我 们 时 常会 对 记录 进行 增删 ， 假 设 我 们 把 页 28 中 的 记录 都 删除 了 ， 页 28 也 就 没有 存在 的 必要 了 ， 那 意味 
着 目录 项 2 也 就 没有 存在 的 必要 了 ， 这 就 需要 把 目录 项 2 后 的 目录 项 都 向 前 移动 一 下 ， 这 种 牵 一 发 而 动 全 身 
的 设计 不 是 什么 好 主意 ~ 


所 以 设计 InnoDB ool na ee llth 目录 项 的 方式 。 他 们 灵光 乍 现 ， 忽 然 发 现 这 些 目录 项 
其 实 长 得 跟 我 们 的 用 户 记录 差不多 ， 只 不 过 目录 项 中 的 两 个 列 是 主键 和 页 号 而 已 ， 所 以 他 们 复 用 了 之 前 存储 
Se Eo ， 我 们 把 这 些 用 来 表示 目录 项 的 记录 称 为 目录 项 记 

。 那 InnoDB 怎么 区 分 一 条 记录 是 普通 的 用 户 记 录 还 是 目录 项 记录 呢 ? 别 忘 了 记录 头 信息 里 的 
es 属性 ， 它 的 各 个 取 值 代表 的 意思 如 下 : 


普通 的 用 户 记录 
: 目录 项 记录 
: 最 小 记录 
: 最 大 记录 


哈哈 ， 原 来 这 个 值 为 1 的 record_type 是 这 个 意思 呀 ， 我 们 把 前 边 使 用 到 的 目录 项 放 到 数据 页 中 的 样子 就 是 这 
样 : 





ee ee ee@ ee 
co DD 一 OO 












这 个 数据 页 存放 的 是 
目录 项 记录 ， 


它们 的 record type=1 






这 些 数据 页 存放 的 是 
普通 的 用 户 记录 ， 
它们 的 record type=0 


从 图 中 可 以 看 出 来 ， 我 们 新 分 配 了 一 个 编号 为 30 的 页 来 专门 存储 目录 项 记录 。 这 里 再 次 强调 一 遍 目录 项 记录 
和 普通 的 用 户 记 录 的 不 同 点 : 








。 目录 项 记录 的 record_type 值 是 1， 而 普通 用 户 记录 的 record_type 值 是 0。 

。 目录 项 记录 只 有 主键 值 和 页 的 编号 两 个 列 ， 而 普通 的 用 户 记录 的 列 是 用 户 自己 定义 的 ， 可 能 包含 很 多 列 ， 
另外 还 有 InnoDB 自己 添加 的 隐藏 列 。 

。 还 记得 我 们 之 前 在 噶 叫 记录 头 信息 的 时 候 说 过 一 个 叫 min_rec_mask 的 属性 么 ， 只 有 在 存储 目录 项 记录 的 页 
中 的 主键 值 最 小 的 目录 项 记录 的 min_rec_mask 值 为 1 ， 其 他 别 的 记录 的 min_rec_mask 值 都 是 0 。 


除了 上 述 几 点 外 ， 这 两 者 就 没 哈 差别 了 ， 它 们 用 的 是 一 样 的 数据 页 (页 面 类 型 都 是 0x45BF ， 这 个 属性 在 File 

Header 中 ， 忘 了 的 话 可 以 翻 到 前 边 的 文章 看 ) ， 页 的 组 成 结构 也 是 一 样 一 样 的 (就 是 我 们 前 边 介 绍 过 的 7 个 部 

分 ) ， 都 会 为 主键 值 生成 Page Directory (页 目录 ) ， 从 而 在 按照 主键 值 进行 查找 时 可 以 使 用 二 分 法 来 加 快 查 
询 速 度 。 现 在 以 查找 主键 为 20 的 记录 为 例 ， 根 据 某 个 主键 值 去 查找 记录 的 步骤 就 可 以 大 致 拆 分 成 下 边 两 步 : 


1. 先 到 存储 目录 项 记录 的 页 ， 也 就 是 页 30 中 通过 二 分 法 快速 定位 到 对 应 目录 项 ， 因 为 12《 20《“ 209 ， 所 
以 定位 到 对 应 的 记录 所 在 的 页 就 是 页 9 。 
2. 再 到 存储 用 户 记录 的 页 9 中 根据 二 分 法 快速 定位 到 主键 值 为 20 的 用 户 记录 。 


虽然 说 目录 项 记录 中 只 存储 主键 值 和 对 应 的 页 号 ， 比 用 户 记 录 需 要 的 存储 空间 小 多 了 ， 但 是 不 论 怎么 说 一 个 页 
只 有 16KB 大 小 ， 能 存放 的 目录 项 记录 也 是 有 限 的 ， 那 如 果 表 中 的 数据 太 多 ， 以 至 于 一 个 数据 页 不 足以 存放 所 有 
的 目录 项 记录 ， 该 咋 办 呢 ? 


当然 是 再 多 整 一 个 存储 目录 项 记录 的 页 唆 ~ 为 了 大 家 更 好 的 理解 新 分 配 一 个 目录 项 记录 页 的 过 程 ， 我 们 假设 
一 个 存储 目录 项 记录 的 页 最 多 只 能 存放 4 条 目录 项 记录 (请 注意 是 假设 哦 ， 真 实情 况 下 可 以 存放 好 多 条 的 ) ， 
所 以 如 果 此 时 我 们 再 向 上 图 中 插入 一 条 主键 值 为 320 的 用 户 记 录 的 话 ， 那 就 需要 分 配 一 个 新 的 存储 目录 项 记录 
的 页 叶 : 


























四 /这 个 数据 页 存放 的 是 、\ 
| 目录 项 记录 ， | 
它们 的 record_type=1 


/ 这些 数据 页 存放 的 是 
」 普通 的 用 户 记录 ， | 
它们 的 record_type=0 


从 图 中 可 以 看 出 ， 我 们 插入 了 一 条 主键 值 为 320 的 用 户 记录 之 后 需要 两 个 新 的 数据 页 : 


。 为 存储 该 用 户 记 录 而 新 生成 了 页 31 。 
。 因为 原先 存储 目录 项 记录 的 页 30 的 容量 已 满 (我 们 前 边 假设 只 能 存储 4 条 目录 项 记录 ) ， 所 以 不 得 不 需 
要 一 个 新 的 页 32 来 存放 页 31 对 应 的 目录 项 。 


现在 因为 存储 目录 项 记录 的 页 不 止 一 个 ， 所 以 如 果 我 们 想 根据 主键 值 查找 一 条 用 户 记录 大 致 需要 3 个 步骤 ， 以 查 
找 主键 值 为 20 的 记录 为 例 : 


1. 确定 目录 项 记录 页 








我 们 现在 的 存储 目录 项 记录 的 页 有 两 个 即 页 30 和 页 32 ， 又 因为 页 30 表示 的 目录 项 的 主键 值 的 范围 是 
[1，320) ， 页 32 表示 的 目录 项 的 主键 值 不 小 于 320 ， 所 以 主键 值 为 20 的 记录 对 应 的 目录 项 记录 在 页 30 
中 。 
2. 通过 目录 项 记录 页 确定 用 户 记录 真实 所 在 的 页 。 


在 一 个 存储 目录 项 记录 的 页 中 通过 主键 值 定位 一 条 目录 项 记录 的 方式 说 过 了 ,不 袭 述 了 ~ 
3. 在 真实 存储 用 户 记录 的 页 中 定位 到 具体 的 记录 。 


在 一 个 存储 用 户 记录 的 页 中 通过 主键 值 定位 一 条 用 户 记录 的 方式 已 经 说 过 200 遍 了 ， 你 再 不 会 我 就 ， 我 就 ， 
我 就 求 你 到 上 一 篇 噶 劝 数据 页 结构 的 文章 中 多 看 几 遍 ， 求 你 了 ~ 


那么 问题 来 了 ， 在 这 个 查询 步骤 的 第 1 步 中 我 们 需要 定位 人 存储 目录 项 记录 的 页 ， 但 是 这 些 页 在 人 存储 空间 中 也 可 能 
不 挨 着 ， 如 果 我 们 表 中 的 数据 非常 多 则 会 产生 很 多 存储 目录 项 记录 的 页 ， 那 我 们 怎么 根据 主键 值 快速 定位 一 个 

存储 目录 项 记录 的 页 呢 ? 其 实 也 简单 ， 为 这 些 存储 目录 项 记录 的 页 再 生成 一 个 更 高 级 的 目录 ， 就 像 是 一 个 多 级 
目录 一 样 ， 大 目录 里 嵌 套 小 目录 ， 小 目录 里 才 是 实际 的 数据 ， 所 以 现在 各 个 页 的 示意 图 就 是 这 样子 : 










/i 食 个 数据 页 存放 的 
《时 wo ) 
让 的 ecord type=1 / 


/ 信人 页、 \ 
J 普通 目录 项 记 | 
> 人 Nrecord ype- 1 


Be 
/We 


| 曾 肖 的 用 户 记录 
一 它们 的 record -ype= =0/ / 


如 图 ， 我 们 生成 了 一 个 存储 更 高 级 目录 项 的 页 33 ， 这 个 页 中 的 两 条 记录 分 别 代表 页 30 和 页 32 ， 如 果 用 户 记录 
的 主键 值 在 [1，320) 之 间 ， 则 到 页 30 有 目录 项 记录 ， 如 果 主 键 值 不 小 于 320 的 话 ， 就 到 页 32 
中 查找 更 详细 的 目录 项 记录 。 不 过 这 张 图 好 漂亮 喔 ， 随 着 表 中 记录 的 增加 ， 这 个 目录 的 层级 会 继续 增加 ， 如 果 
简化 一 下 ， 那 么 我 们 可 以 用 下 边 这 个 图 来 描述 它 : 





这 玩意 儿 像 不 像 一 个 倒 过 来 的 树 呀 ， 上 头 是 树 根 ， 下 头 是 树叶 ! 其 实 这 是 一 种 组 织 数据 的 形式 ， 或 者 说 是 一 种 
数据 结构 ， 它 的 名 称 是 B+ 树 。 
小 贴 士 : 








为 喻 叫 B+ 呢 ， B 树 是 个 喻 ? 喔 对 不 起 ， 这 不 是 我 们 讨论 的 范围 ， 你 可 以 去 找 一 本 数据 结构 或 算法 的 
书 来 看 。 什 么 ? 数据 结构 的 书 看 不 懂 ? 等 我 一 


不 论 是 存放 用 户 记录 的 数据 页 ， 还 是 存放 目录 项 记录 的 数据 页 ， 我 们 都 把 它们 存放 到 B+ 树 这 个 数据 结构 中 了 ， 
所 以 我 们 也 称 这 些 数据 页 为 节点 。 从 图 中 可 以 看 出 来 ,我 们 的 实际 用 户 记 录 其 实 都 分 放 在 B+ 树 的 最 底层 的 节点 
上 ， 这 些 节 点 也 被 称 为 叶子 节点 或 叶 节 点 ， 其 余 用 来 存放 目录 项 的 节点 称 为 非 叶子 节点 或 者 内 节点 ， 其 
中 B+ 树 最 上 边 的 那个 节点 也 称 为 根 节 点 。 


从 图 中 可 以 看 出 来 ， 一 个 B+ 树 的 节点 其 实 可 以 分 成 好 多 层 ， 设 计 InnoDB 的 大 叔 们 为 了 讨论 方便 ， 规 定 最 下 边 的 
那 屋 ， 也 就 是 存放 我 们 用 户 记录 的 那 层 为 第 0 层 ， 之 后 依次 往 上 加 。 之 前 的 讨论 我 们 做 了 一 个 非常 极端 的 假设 : 

存放 用 户 记录 的 页 最 多 存放 3 条 记录 ， 和 存放 目录 项 记录 的 页 最 多 存放 4 条 记录 。 其 实 真 实 环境 中 一 个 页 存放 的 记录 
数量 是 非常 大 的 假设, 假设 , 假设 所 有 存放 用 户 记录 的 叶子 节点 代表 的 数据 页 可 以 存放 100 条 用 户 记录 ， 所 有 

存放 目录 项 记录 的 内 节点 代表 的 数据 页 可 以 存放 1000 条 目录 项 记录 ， 那 么 : 


。 如 果 B+ 树 只 有 1 层 ， 也 就 是 只 有 1 个 用 于 存放 用 户 记录 的 节点 ， 最 多 能 存放 100 条 记录 。 

。 如 果 B+ 树 有 2 层 ， 最 多 能 存放 1000X 100=100000 条 记录 。 

。 如果 B+ 树 有 3 层 ， 最 多 能 存放 1000 X1000X100=100000000 条 记录 。 

。 如 果 B+ 树 有 4 层 ， 最 多 能 存放 1000 X1000X1000X100=100000000000 条 记录 。 哇 味 味 ~ 这 么 多 的 记 
录 ! ! ! 


你 的 表 里 能 存放 100000000000 条 记录 么 ”所 以 一 般 情况 下 ， 我 们 用 到 的 B+ 树 都 不 会 超过 4 层 ， 那 我 们 通过 主键 
值 去 查找 某 条 记录 最 多 只 需要 做 4 个 页 面 内 的 查找 (查找 3 个 目录 项 页 和 一 个 用 户 记录 页 ) ， 又 因为 在 每 个 页 面 内 
有 所 谓 的 Page Directory (页 目录 ) ， 所 以 在 页 面 内 也 可 以 通过 二 分 法 实现 快速 定位 记录 ， 这 不 是 很 牛 么 ， 哈 


哈 ! 

6.2.2.1 聚 复 索 引 

我 们 上 边 介绍 的 B+ 树 本 身 就 是 一 个 目录 ,或 者 说 本 身 就 是 一 个 索引 。 它 有 两 个 特点 : 
1. 使 用 记录 主键 值 的 大 小 进行 记录 和 页 的 排序 ， 这 包括 三 个 方面 的 含义 : 


。 页 内 的 记录 是 按照 主键 的 大 小 顺序 排 成 一 个 单 向 链表 。 
。 各 个 存放 用 户 记录 的 页 也 是 根据 页 中 用 户 记录 的 主键 大 小 顺序 排 成 一 个 双向 链表 。 
。 存放 目录 项 记录 的 页 分 为 不 同 的 层次 ， 在 同一 层次 中 的 页 也 是 根据 页 中 目录 项 记录 的 主键 大 小 顺序 排 成 
一 个 双向 链表 。 
2，B+ 树 的 叶子 节点 存储 的 是 完整 的 用 户 记录 。 


所 谓 完 整 的 用 户 记录 ， 就 是 指 这 个 记录 中 存储 了 所 有 列 的 值 (包括 隐藏 列 ) 。 


我 们 把 具有 这 两 种 特性 的 B+ 树 称 为 聚 簇 索引 ， 所 有 完整 的 用 户 记录 都 存放 在 这 个 聚 筷 索引 的 叶子 节点 处 。 这 
种 聚 艇 索引 并 不 需要 我 们 在 MySQL 语句 中 显 式 的 使 用 INDEX 语句 去 创建 (后 边 会 介绍 索引 相关 的 语句 ) ， 
InnoDB 存储 引 警 会 自动 的 为 我 们 创建 聚 篮 索引 。 另 外 有 趣 的 一 点 是 ， 在 InnoDB 存储 引擎 中 ， 聚 艇 索引 就 是 数 
据 的 存储 方式 (所 有 的 用 户 记 录 都 存储 在 了 叶子 节点 ) ， 也 就 是 所 谓 的 索引 即 数据 ， 数 据 即 索引 。 


6.2.2.2 二 级 索引 


大 家 有 木 有 发 现 ， 上 边 介绍 的 聚 簇 索 引 只 能 在 搜索 条 件 是 主键 值 时 才能 发 挥 作 用 ， 因 为 B+ 树 中 的 数据 都 是 按照 
主键 进行 排序 的 。 那 如 果 我 们 想 以 别 的 列 作为 搜索 条 件 该 咋 办 呢 ”难道 只 能 从 头 到 尾 沿 着 链表 依次 遍历 记录 么 ? 


不 ， 我 们 可 以 多 建 几 棵 B+ 树 ， 不 同 的 B+ 树 中 的 数据 采用 不 同 的 排序 规则 。 比 方 说 我 们 用 “2 列 的 大 小 作为 数据 
页 、 页 中 记录 的 排序 规则 ， 再 建 一 棵 B+ 树 ， 效 果 如 下 图 所 示 : 





/这 个 数据 页 存放 的 是 
一 ” 表示 范围 更 广 的 目录 项 记录 ， 
” “它们 的 record_type=1 









/ 这 个 数据 页 存放 的 是 
_ | 普通 目录 项 记录 ， | 
一 它们 的 record_type=1 / 


/ 这 些 数据 页 存放 的 是 \ 
上 」 记录 只 有 c2 和 cl 列 的 值 , | 
一 它们 的 record_type=0 





页 41 
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这 个 B+ 树 与 上 边 介绍 的 聚 艇 索引 有 几 处 不 同 : 


。 使 用 记录 “2 列 的 大 小 进行 记录 和 页 的 排序 ， 这 包括 三 个 方面 的 含义 : 
， 页 内 的 记录 是 按照 2 列 的 大 小 顺序 排 成 一 个 单 向 链表 。 
”各 个 存放 用 户 记录 的 页 也 是 根据 页 中 记录 的 “2 列 大 小 顺序 排 成 一 个 双向 链表 。 
” 存放 目录 项 记录 的 页 分 为 不 同 的 层次 ， 在 同一 层次 中 的 页 也 是 根据 页 中 目录 项 记录 的 “2 列 大 小 顺序 排 
成 一 个 双向 链表 。 
。 B+ 树 的 叶子 节点 存储 的 并 不 是 完整 的 用 户 记 录 ， 而 只 是 “2 列 + 主键 这 两 个 列 的 值 。 
。 目录 项 记录 中 不 再 是 主键 + 页 号 的 搭配 ， 而 变 成 了 c2 列 + 页 号 的 搭配 。 


所 以 如 果 我 们 现在 想 通过 c2 列 的 值 查找 某 些 记录 的 话 就 可 以 使 用 我 们 刚刚 建 好 的 这 个 B+ 树 了 。 以 查找 c2 列 的 
值 为 4 的 记录 为 例 ， 查 找 过 程 如 下 : 


1. 确定 目录 项 记录 页 


根据 根 页 面 ， 也 就 是 页 44 ， 可 以 快速 定位 到 目录 项 记录 所 在 的 页 为 页 42 (因为 2<4<9)。 
2. 通过 目录 项 记录 页 确定 用 户 记录 真实 所 在 的 页 。 


在 页 42 中 可 以 快速 定位 到 实际 存储 用 户 记录 的 页 ， 但 是 由 于 2 列 并 没有 唯一 性 约束 ， 所 以 2 列 值 为 4 的 
记录 可 能 分 布 在 多 个 数据 页 中 ， 又 因为 2《 4 科 4 ， 所 以 确定 实际 存储 用 户 记 录 的 页 在 页 34 和 页 35 中 。 
3. 在 真实 存储 用 户 记录 的 页 中 定位 到 具体 的 记录 。 


到 页 34 和 页 35 中 定位 到 具体 的 记录 。 
4. 但 是 这 个 B+ 树 的 叶子 节点 中 的 记录 只 存储 了 c2 和 cl (也 就 是 主键 ) 两 个 列 ， 所 以 我 们 必须 再 根据 主键 
值 去 聚 篮 索引 中 再 查找 一 遍 完整 的 用 户 记录 。 


各 位 各 位 ， 看 到 步骤 4 的 操作 了 么 ”我 们 根据 这 个 以 c2 列 大 小 排序 的 B+ 树 只 能 确定 我 们 要 查找 记录 的 主键 值 ， 
所 以 如 果 我 们 想 根据 2 列 的 值 查 找到 完整 的 用 户 记 录 的 话 ， 仍 然 需要 到 聚 驴 索引 中 再 查 一 遍 ， 这 个 过 程 也 被 称 
为 回 表 。 也 就 是 根据 2 列 的 值 查询 一 条 完整 的 用 户 记录 需要 使 用 到 2 棵 B+ 树 ! ! ! 


为 什么 我 们 还 需要 一 次 回 表 操作 呢 ? 直接 把 完整 的 用 户 记 录放 到 叶子 节点 不 就 好 了 么 ? 你 说 的 对 ， 如 果 把 完整 
的 用 户 记 录放 到 叶子 节点 是 可 以 不 用 回 表 ， 但 是 太 占 地 方 了 呀 ~ 相当 于 每 建立 一 棵 B+ 树 都 需要 把 所 有 的 用 户 
记录 再 都 拷贝 一 遍 ， 这 就 有 点 太 浪费 存储 空间 了 。 因为 这 种 按照 非 主 键 列 建立 的 B+ 树 需要 一 次 回 表 操作 才 可 
以 定位 到 完整 的 用 户 记 录 ， 所 以 这 种 B+ 树 也 被 称 为 二 级 索引 (英文 名 secondary index ) ， 或 者 辅助 索引 。 
由 于 我 们 使 用 的 是 “2 列 的 大 小 作为 B+ 树 的 排序 规则 ， 所 以 我 们 也 称 这 个 B+ 树 为 为 c2 列 建立 的 索引 。 
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我 们 也 可 以 同时 以 多 个 列 的 大 小 作为 排序 规则 ， 也 就 是 同时 为 多 个 列 建立 索引 ， 比 方 说 我 们 想 让 B+ 树 按 照 c2 
和 c3 列 的 大 小 进行 排序 ， 这 个 包含 两 层 含 义 : 


。 先 把 各 个 记录 和 页 按照 c2 列 进行 排序 。 
。 在 记录 的 2 列 相同 的 情况 下 ， 采 用 c3 列 进行 排序 


为 c2 和 c3 列 建立 的 索引 的 示意 图 如 下 : 





“这 个 数据 页 存放 的 是 
一 表示 范围 更 广 的 目录 项 记录 ,| 


Seecon type=1 






日 /这 个 数据 页 存放 的 是 \\ 
| 普通 目录 项 记录 ， | 
一 它们 的 record_type=1 / 


/ 这 些 数据 页 存放 的 是 人 
上 」 记录 c2、c3 和 cl1 列 的 值 ,| 
一 它们 的 record_type=0 / 





如 图 所 示 ， 我 们 需要 注意 一 下 几 点 : 


。 每 条 目录 项 记录 都 由 c2 、 c3 、 页 号 这 三 个 部 分 组 成 ， 各 条 记录 先 按照 c2 列 的 值 进行 排序 ， 如 果 记 录 
的 c2 列 相同 ， 则 按照 c3 列 的 值 进行 排序 。 
。 B+ 树叶 子 节点 处 的 用 户 记录 由 c2 、 “3 和 主键 cl 列 组 成 。 


干 万 要 注意 一 点 ， 以 c2 和 c3 列 的 大 小 为 排序 规则 建立 的 B+ 树 称 为 联合 索引 ， 本 质 上 也 是 一 个 二 级 索引 。 它 的 意思 
与 分 别 为 c2 和 c3 列 分 别 建立 索引 的 表述 是 不 同 的 ,不同 点 如 下 : 


。 建立 联合 索引 只 会 建立 如 上 图 一 样 的 1 棵 B+ 树 。 
。 为 c2 和 c3 列 分 别 建立 索引 会 分 别 以 2 和 c3 列 的 大 小 为 排序 规则 建立 2 棵 B+ 树 。 


6.2.3 InnoDB 的 B+ 树 索引 的 注意 事项 


6.2.3.1 根 页 面 万 年 不 动 窝 


我 们 前 边 介绍 B+ 树 索引 的 时 候 ， 为 了 大 家 理解 上 的 方便 ， 先 把 存储 用 户 记录 的 叶子 节点 都 画 出 来 ， 然 后 接着 画 
存储 目录 项 记录 的 内 节点 ， 实 际 上 B+ 树 的 形成 过 程 是 这 样 的 : 


。 每 当 为 某 个 表 创 建 一 个 B+ 树 索引 ( 聚 篮 索 引 不 是 人 为 创建 的 ， 默 认 就 有 ) 的 时 候 ， 都 会 为 这 个 索引 创建 一 
个 根 节 点 页 面 。 最 开始 表 中 没有 数据 的 时 候 ， 每 个 B+ 树 索引 对 应 的 根 节 点 中 既 没有 用 户 记录 ， 也 没有 目 
录 项 记录 。 

。 随后 向 表 中 插入 用 户 记录 时 ， 先 把 用 户 记录 存储 到 这 个 根 节点 中 。 


。 当 根 节 点 中 的 可 用 空间 用 完 时 继续 插入 记录 ， 此 时 会 将 根 节 点 中 的 所 有 记录 复制 到 一 个 新 分 配 的 页 ， 比 
如 页 a 中 ， 然 后 对 这 个 新 页 进行 页 分 裂 的 操作 ， 得 到 另 一 个 新 页 ， 比 如 页 b 。 这 时 新 插入 的 记录 根据 键 值 
(也 就 是 聚 艇 索引 中 的 主键 值 ， 二 级 索引 中 对 应 的 索引 列 的 值 ) 的 大 小 就 会 被 分 配 到 页 a 或 者 页 b 中 ， 而 
根 节 点 便 升 级 为 存储 目录 项 记录 的 页 。 


这 个 过 程 需要 大 家 特别 注意 的 是 : 一 个 B+ 树 索引 的 根 节 点 自 诞生 之 日 起 ， 便 不 会 再 移动 。 这 样 只 要 我 们 对 某 个 表 
建立 一 个 索引 ， 那 么 它 的 根 节点 的 页 号 便 会 被 记录 到 某 个 地 方 ， 然 后 凡是 InnoDB 存储 引擎 需要 用 到 这 个 索引 的 
时 候 ， 都 会 从 那个 固定 的 地 方 取出 根 节点 的 页 号 ， 从 而 来 访问 这 个 索引 。 


小 贴 士 : 
跟 大 家 剧 透 一 下 ， 这 个 存储 某 个 索引 的 根 节点 在 哪个 页 面 中 的 信息 就 是 传说 中 的 数 所 
息 ， 关 于 更 多 数据 字典 的 内 容 ， 后 边 会 详细 啼 明 ， 别 着 急 哈 。 
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6.2.3.2 内 节点 中 目录 项 记录 的 唯一 性 


我 们 知道 B+ 树 索引 的 内 节点 中 目录 项 记录 的 内 容 是 索引 列 + 页 号 的 搭配 ， 但 是 这 个 搭配 对 于 二 级 索引 来 说 有 
点 儿 不 严谨 。 还 拿 index_demo 表 为 例 ， 假 设 这 个 表 中 的 数据 是 这 样 的 : 


cl c2 5c3 
1 1 'U' 
3 1 'd! 
5 1 y 
7 1 'a' 


如 果 二 级 索引 中 目录 项 记录 的 内 容 只 是 索引 列 + 页 号 的 搭配 的 话 ， 那 么 为 c2 列 建立 索引 后 的 B+ 树 应 该 长 这 
样 : 


为 c2 列 建立 二 级 索引 后 的 B+ 树 


DA 


明和 目 重 

本 一 

如 果 我 们 想 新 插入 一 行 记录 ， 其 中 cl 、 c2 、 c3 的 值 分 别 是 : 9 、 1 、“c ， 那 么 在 修改 这 个 为 c2 列 建立 
的 二 级 索引 对 应 的 B+ 树 时 便 碰 到 了 个 大 问题 : 由 于 页 3 中 存储 的 目录 项 记录 是 由 c2 列 + 页 号 的 值 构成 的 ， 


页 3 中 的 两 条 目录 项 记录 对 应 的 c2 列 的 值 都 是 1 ， 而 我 们 新 插入 的 这 条 记录 的 “2 列 的 值 也 是 ! ， 那 我 们 这 条 
新 插入 的 记录 到 底 应 该 放 到 页 4 中 ， 还 是 应 该 放 到 页 5 中 啊 ? 答案 是 : 对 不 起 ， 懂 逼 了 。 


为 了 让 新 插入 记录 能 找到 自己 在 那个 页 里 ， 我 们 需要 保证 在 B+ 树 的 同一 层 内 节点 的 目录 项 记录 除 页 号 这 个 字段 
以 外 是 唯一 的 。 所 以 对 于 二 级 索引 的 内 节点 的 目录 项 记录 的 内 容 实际 上 是 由 三 个 部 分 构成 的 : 


。 索引 列 的 值 
。 主键 值 


。 页 号 


也 就 是 我 们 把 主键 值 也 添加 到 二 级 索引 内 节点 中 的 目录 项 记录 了 ， 这 样 就 能 保证 B+ 树 每 一 层 节 点 中 各 条 目录 项 
记录 除 页 号 这 个 字段 外 是 唯一 的 ， 所 以 我 们 为 c2 列 建立 二 级 索引 后 的 示意 图 实际 上 应 该 是 这 样子 的 : 





为 c2 列 建立 二 级 索引 后 的 B+ 树 


Da 


页 3 
人 

4 
这 样 我 们 再 插入 记录 (9，1,， “ ) 时 ， 由 于 页 3 中 存储 的 目录 项 记录 是 由 c2 列 + 主键 + 页 号 的 值 构成 的 ， 可 
以 先 把 新 记录 的 c2 列 的 值 和 页 3 中 各 目录 项 记录 的 c2 列 的 值 作 比较 ， 如 果 “2 列 的 值 相同 的 话 ， 可 以 接着 比较 


主键 值 ， 因 为 B+ 树 同 一 层 中 不 同 目录 项 记录 的 c2 列 + 主键 的 值 肯定 是 不 一 样 的 ， 所 以 最 后 肯定 能 定位 唯一 的 
一 条 目录 项 记录 ， 在 本 例 中 最 后 确定 新 记录 应 该 被 插入 到 页 5 中 。 

















6.2.3.3 一 个 页 面 最 少 存储 2 条 记录 


我 们 前 边 说 过 一 个 B+ 树 只 需要 很 少 的 层级 就 可 以 轻松 存储 数 亿 条 记录 ， 查 询 速度 杠 杠 的 ! 这 是 因为 B+ 树 本 质 上 
就 是 一 个 大 的 多 层级 目录 ， 每 经 过 一 个 目录 时 都 会 过 滤 掉 许多 无 效 的 子 目录 ， 直 到 最 后 访问 到 人 存储 真实 数据 的 目 
录 。 那 如 果 一 个 大 的 目录 中 只 存放 一 个 子 目录 是 个 哈 效 果 呢 ? 那 就 是 目录 层级 非常 非常 非常 多 ， 而 且 最 后 的 那个 
存放 真实 数据 的 目录 中 只 能 存放 一 条 记录 。 费 了 半天 劲 只 能 存放 一 条 真实 的 用 户 记 录 ?” 逗 我 呢 ? 所 以 InnoDB 的 
一 个 数据 页 至 少 可 以 存放 两 条 记录 ， 这 也 是 我 们 之 前 踪 明 记 录 行 格式 的 时 候 说 过 一 个 结论 (我 们 当时 依据 这 个 结 
论 推 导 了 表 中 只 有 一 个 列 时 该 列 在 不 发 生 行 溢出 的 情况 下 最 多 能 存储 多 少 字 节 ， 忘 了 的 话 回去 看 看 吧 ) 。 


6.2.4 MylSAM 中 的 索引 方案 简单 介绍 


至 此 ， 我 们 介绍 的 都 是 InnoDB 存储 引擎 中 的 索引 方案 ,为 了 内 容 的 完整 性 ， 以 及 各 位 可 能 在 面试 的 时 候 遇 到 这 
类 的 问题 ， 我 们 有 必要 再 简单 介绍 一 下 MyISAM 存储 引擎 中 的 索引 方案 。 我 们 知道 InnoDB 中 索引 即 数据 ， 也 就 是 
聚 篮 索引 的 那 棵 B+ 树 的 叶子 节点 中 已 经 把 所 有 完整 的 用 户 记录 都 包含 了 ， 而 MyISAM 的 索引 方案 虽然 也 使 用 树 形 
结构 ， 但 是 却 将 索引 和 数据 分 开 存 储 : 


。 将 表 中 的 记录 按照 记录 的 插入 顺序 单独 存储 在 一 个 文件 中 ， 称 之 为 数据 文件 。 这 个 文件 并 不 划分 为 若干 个 
数据 页 ， 有 多 少 记录 就 往 这 个 文件 中 塞 多 少 记录 就 成 了 。 我 们 可 以 通过 行 号 而 快速 访问 到 一 条 记录 。 








MyISAM 记录 也 需要 记录 头 信息 来 存储 一 些 额 外 数据 ， 我 们 以 上 边 路 劝 过 的 index_demo 表 为 例 ， 看 一 下 这 个 
表 中 的 记录 使 用 MyISAM 作为 存储 引擎 在 存储 空间 中 的 表示 : 


DO 


= 





4 
9 
3 
4 
9 
ef 
3 
8 
2 
4 
可 
6 
5 


由 于 在 插入 数据 的 时 候 并 没有 刻意 按照 主键 大 小 排序 ， 所 以 我 们 并 不 能 在 这 些 数据 上 使 用 二 分 法 进行 查找 。 
使 用 MyISAM 存储 引 警 的 表 会 把 索引 信息 另外 人 存储 到 一 个 称 为 索引 文件 的 另 一 个 文件 中 。 MyISAM 会 单独 为 
表 的 主键 创建 一 个 索引 ， 只 不 过 在 索引 的 叶子 节点 中 存储 的 不 是 完整 的 用 户 记录 ， 而 是 主键 值 + 行 号 的 组 
合 。 也 就 是 先 通过 索引 找到 对 应 的 行 号 ， 再 通过 行 号 去 找 对 应 的 记录 ! 


这 一 点 和 InnoDB 是 完全 不 相同 的 ， 在 InnoDB 存储 引擎 中 ， 我 们 只 需要 根据 主键 值 对 聚 灸 索引 进行 一 次 查 
找 就 能 找到 对 应 的 记录 ， 而 在 MyISAM 中 却 需 要 进行 一 次 回 表 操作 ， 意 味 着 MyISAM 中 建立 的 索引 相当 于 全 
部 都 是 二 级 索引 ! 

如 果 有 需要 的 话 ， 我 们 也 可 以 对 其 它 的 列 分 别 建立 索引 或 者 建立 联合 索引 ， 原 理 和 InnoDB 中 的 索引 差 不 
多 ,不 过 在 叶子 节点 处 存储 的 是 相应 的 列 + 行 号 。 这 些 索引 也 全 部 都 是 二 级 索引 。 





小 贴 士 : 

MyISAM 的 行 格 式 有 定 长 记录 格式 〈Static) 、 变 长 记录 格式 (Dynamic) 、 压 缩 记 录 格 式 (Compres 
sed) 。 上 边 用 到 的 index_demo 表 采用 定 长 记录 格式 ， 也 就 是 一 条 记录 占用 存储 空间 的 大 小 是 固定 
的 ， 这 样 就 可 以 轻松 算出 某 条 记录 在 数据 文件 中 的 地 址 偏 移 量 。 但 是 变 长 记录 格式 就 不 行 了 ，MyIS 
AM 会 直接 在 索引 叶子 节点 处 存储 该 条 记录 在 数据 文件 中 的 地 址 偏 移 量 。 通 过 这 个 可 以 看 出 ，MyISAM 
的 回 表 操作 是 十 分 快速 的 ， 因 为 是 拿 着 地 址 偏 移 量 直接 到 文件 中 取 数 据 的 ， 反 观 InnoDB 是 通过 获取 
主键 之 后 再 去 聚 艇 索引 里 边 儿 找 记 录 ， 虽 然 说 也 不 慢 ， 但 还 是 比 不 上 直接 用 地 址 去 访问 。 

此 处 我 们 只 是 非常 简要 的 介绍 了 一 下 MyISAM 的 索引 ， 具 体 细 节 全 拿 出 来 又 可 以 写 一 篇 文章 了 。 这 里 
只 是 希望 大 家 理解 InnoDB 中 的 索引 即 数据 ， 数 据 即 索引 ， 而 MyISAM 中 却 是 索引 是 索引 、 数 据 是 数 
据 。 
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6.2.5 MySQL 中 创建 和 删除 索引 的 语句 


光顾 着 噶 轨 索引 的 原理 了 ， 那 我 们 如 何 使 用 MySQL 语句 去 建立 这 种 索引 呢 ? InnoDB 和 MyISAM 会 自动 为 主键 或 
者 声明 为 UNIQUE 的 列 去 自动 建立 B+ 树 索引 ， 但 是 如 果 我 们 想 为 其 他 的 列 建立 索引 就 需要 我 们 显 式 的 去 指明 。 为 
喻 不 自动 为 每 个 列 都 建立 个 索引 呢 ? 别 志 了 ， 每 建立 一 个 索引 都 会 建立 一 棵 B+ 树 ， 每 插入 一 条 记录 都 要 维护 各 
个 记录 、 数 据 页 的 排序 关系 ， 这 是 很 费 性 能 和 人 存储 空间 的 。 


我 们 可 以 在 创建 表 的 时 候 指定 需要 建立 索引 的 单个 列 或 者 建立 联合 索引 的 多 个 列 : 


CREATE TALBE 表 名 ( 
各 种 列 的 信息 。。。 

[KEY| INDEX] 索引 名 〈 需 要 被 索引 的 单个 列 或 多 个 列 ) 
) 





其 中 的 KEY 和 INDEX 是 同义词 ， 任 意 选 用 一 个 就 可 以 。 我 们 也 可 以 在 修改 表 结构 的 时 候 添 加 索引 : 

















ALTER TABLE 表 名 ADD [INDEX|KEY] 索引 名 〈 需 要 被 索引 的 单个 列 或 多 个 列 ) ; 
也 可 以 在 修改 表 结 构 的 时 候 删除 索引 : 


ALTER TABLE 表 名 DROP [LINDEX|KEY] 索引 名 ; 








比方 说 我 们 想 在 创建 index_demo 表 的 时 候 就 为 c2 和 c3 列 添加 一 个 联合 索引 ， 可 以 这 么 写 建 表 语句 : 


CREATE TABLE index demo( 

cl INT, 

c2 INT, 

c3 CHAR(1), 

PRIMARY KEY(c1), 

INDEX idx c2 c3 (c2，c3) 
) ; 


在 这 个 建 表 语 句 中 我 们 创建 的 索引 名 是 idx_c2_c3 ， 这 个 名 称 可 以 随便 起 ， 不 过 我 们 还 是 建议 以 idx 为 前 绥 ， 
后 边 跟着 需要 建立 索引 的 列 名 ， 多 个 列 名 之 间 用 下 划 线 “分 隔 开 。 


如 果 我 们 想 删 除 这 个 索引 ， 可 以 这 么 写 : 


ALTER TABLE index demo DROP INDEX idx c2 c3; 


7 第 7 章 好 东西 也 得 先 学 会 怎么 用 -B+ 树 索引 的 使 用 


标签 : _ MySQL 是 怎样 运行 的 


我 们 前 边 详细 、 详 细 又 详细 的 路 明了 InnoDB 存储 引擎 的 B+ 树 索引 ， 我 们 必须 熟悉 下 边 这 些 结论 : 


。 每 个 索引 都 对 应 一 棵 B+ 树 ， B+ 树 分 为 好 多 层 ， 最 下 边 一 层 是 叶子 节点 ， 其 余 的 是 内 节点 。 所 有 用 户 记录 
都 存储 在 B+ 树 的 叶子 节点 ， 所 有 目录 项 记录 都 存储 在 内 节点 。 


InnoDB 存储 引擎 会 自动 为 主键 (如 果 没有 它 会 自动 帮 我 们 添加 ) 建立 聚 侯 索 引 ， 聚 艇 索引 的 叶子 节点 包含 
完整 的 用 户 记录 ，。 

我 们 可 以 为 自己 感 兴趣 的 列 建立 二 级 索引 ， 二 级 索引 的 叶子 节点 包含 的 用 户 记录 由 索引 列 + 主键 组 
成 ， 所 以 如 果 想 通过 二 级 索引 来 查找 完整 的 用 户 记录 的 话 ， 需 要 通过 回 表 操作 ， 也 就 是 在 通过 二 级 索引 
找到 主键 值 之 后 再 到 素 簇 索引 中 查找 完整 的 用 户 记录 。 




















。 B+ 树 中 每 层 节点 都 是 按照 索引 列 值 从 小 到 大 的 顺序 排序 而 组 成 了 双向 链表 ， 而 且 每 个 页 内 的 记录 (不 论 是 


用 户 记录 还 是 目录 项 记录 ) 都 是 按照 索引 列 的 值 从 小 到 大 的 顺序 而 形成 了 一 个 单 链表 。 如 果 是 联合 索引 的 
话 ， 则 页 面 和 记录 先 按照 联合 索引 前 边 的 列 排序 ， 如 果 该 列 值 相 同 ， 再 按照 联合 索引 后 边 的 列 排序 。 
。 通过 索引 查找 记录 是 从 B+ 树 的 根 节点 开始 ， 一 层 一 层 向 下 搜索 。 由 于 每 个 页 面 都 按照 索引 列 的 值 建立 了 
Page Directory (页 目录 ) ， 所 以 在 这 些 页 面 中 的 查找 非常 快 。 
如 果 你 读 上 边 的 几 点 结论 有 些 任何 一 点 点 疑惑 的 话 ， 那 下 边 的 内 容 不 适合 你 ， 回 过 头 先 去 看 前 边 的 内 容 去 。 
7.1 索引 的 代价 
在 熟悉 了 B+ 树 索引 原理 之 后 ， 本 篇 文章 的 主题 是 啼 明 如 何 更 好 的 使 用 索引 ， 虽 然 索 引 是 个 好 东西 ， 可 不 能 乱 


建 ， 在 介绍 如 何 更 好 的 使 用 索引 之 前 先 要 了 解 一 下 使 用 这 玩意 儿 的 代价 ， 它 在 空间 和 时 间 上 都 会 拖 后 腿 : 
。 空间 上 的 代价 


这 个 是 显而易见 的 ， 每 建立 一 个 索引 都 要 为 它 建 立 一 棵 B+ 树 ， 每 一 棵 B+ 树 的 每 一 个 节点 都 是 一 个 数据 页 ， 
一 个 页 默认 会 占用 16KB 的 存储 空间 ， 一 棵 很 大 的 B+ 树 由 许多 数据 页 组 成 ， 那 可 是 很 大 的 一 片 存储 空间 呢 。 
。 时 间 上 的 代价 


每 次 对 表 中 的 数据 进行 增 、 删 、 改 操作 时 ， 都 需要 去 修改 各 个 B+ 树 索引 。 而 且 我 们 讲 过 ， B+ 树 每 层 节 点 都 
是 按照 索引 列 的 值 从 小 到 大 的 顺序 排序 而 组 成 了 双向 链表 。 不 论 是 叶子 节点 中 的 记录 ， 还 是 内 节点 中 的 记录 
(也 就 是 不 论 是 用 户 记录 还 是 目录 项 记录 ) 都 是 按照 索引 列 的 值 从 小 到 大 的 顺序 而 形成 了 一 个 单 向 链表 。 而 
增 、 删 、 改 操作 可 能 会 对 节点 和 记录 的 排序 造成 破坏 ， 所 以 存储 引擎 需要 额外 的 时 间 进 行 一 些 记录 移 位 ， 页 
面 分 裂 、 页 面 回收 啥 的 操作 来 维护 好 节点 和 记录 的 排序 。 如 果 我 们 建 了 许多 索引 ， 每 个 索引 对 应 的 B+ 树 都 

要 进行 相关 的 维护 操作 ， 这 还 能 不 给 性 能 拖 后 腿 么 ? 


所 以 说 ， 一 个 表 上 索引 建 的 越 多 ， 就 会 占用 越 多 的 存储 空间 ， 在 增删 改 记录 的 时 候 性 能 就 越 差 。 为 了 能 建立 又 好 
又 少 的 索引 ， 我 们 先 得 学 学 这 些 索 引 在 哪些 条 件 下 起 作用 的 。 


7.2 B+ 树 索引 适用 的 条 件 


下 边 我 们 将 啼 忠 许多 种 让 B+ 树 索引 发 挥 最 大 效能 的 技巧 和 注意 事项 ， 不 过 大 家 要 清楚 ， 所 有 的 技巧 都 是 源 自 你 
对 B+ 树 索引 本 质 的 理解 ， 所 以 如 果 你 还 不 能 保证 对 B+ 树 索 引 充分 的 理解 ， 那 么 再 次 建议 回 过 头 把 前 边 的 内 容 看 
完了 再 来 ， 要 不 然 读 文章 对 你 来 说 是 一 种 折磨 。 首 先 ， B+ 树 索引 并 不 是 万 能 的 ， 并 不 是 所 有 的 查询 语句 都 能 

到 我 们 建立 的 索引 。 下 边 介 绍 几 个 我 们 可 能 使 用 B+ 树 索引 来 进行 查询 的 情况 。 为 了 故事 的 顺利 发 展 ， 我 们 需要 
先 创建 一 个 表 ， 这 个 表 是 用 来 存储 人 的 一 些 基本 信息 的 : 


CREATE TABLE person info( 
id INT NOT NULL auto_increment， 
name VARCHAR(100) NOT NULL, 
birthday DATE NOT NULL， 
phone number CHAR(11) NOT NULL, 
country varchar (100) NOT NULL, 
PRIMARY KEY (id), 
KEY idx name birthday phone number (name, birthday, phone number) 


》s 
对 于 这 个 person_info 表 我 们 需要 注意 两 点 : 


。 表 中 的 主键 是 id 列 ， 它 存储 一 个 自动 递增 的 整数 。 所 以 InnoDB 存储 引擎 会 自动 为 id 列 建立 聚 簇 索 引 。 

。 我 们 额外 定义 了 一 个 二 级 索引 idx_name_birthday_phone_number ， 它 是 由 3 个 列 组 成 的 联合 索引 。 所 以 在 这 
个 索引 对 应 的 B+ 树 的 叶子 节点 处 存储 的 用 户 记 录 只 保留 name 、 birthday 、 phone_number 这 三 个 列 的 值 
以 及 主键 id 的 值 ， 并 不 会 保存 country 列 的 值 。 


从 这 两 点 注意 中 我 们 可 以 再 次 看 到 ， 一 个 表 中 有 多 少 索引 就 会 建立 多 少 棵 B+ 树 ， person_info 表 会 为 聚 艇 索引 
和 idx name birthday phone_number 索引 建立 2 棵 B+ 树 。 下 边 我 们 画 一 下 索引 
idx_name_birthday_phone_number 的 示意 图 ， 不 过 既然 我 们 已 经 掌握 了 InnoDB 的 B+ 树 索 引 原理 ， 那 我 们 在 画 
图 的 时 候 为 了 让 图 更 加 清晰 ， 所 以 在 省 略 一 些 不 必要 的 部 分 ， 比 如 记录 的 额外 信息 ， 各 页 面 的 页 号 等 等 ， 其 中 内 
节点 中 目录 项 记录 的 页 号 信息 我 们 用 箭头 来 代替 ， 在 记录 结构 中 只 保留 name 、 birthday 、 phone_number 、 

id 这 四 个 列 的 真实 数据 值 ， 所 以 示意 图 就 长 这 样 (留心 的 同学 看 出 来 了 ， 这 其 实 和 《高 性 能 MySQL》 里 举 的 例 
子 的 图 差不多 ， 我 觉得 这 个 例子 特别 好 ， 所 以 就 借鉴 了 一 下 ) : 


Aaron Asa Baird 
2000-08-12 1988-08-08 1990-03-02 这 个 是 内 节点 ， 存 放 的 
13474749741 轩 13928384294 18639238122 是 目录 项 记录 
112 23 900 











Aaron Aaron Aaron Asa Ashburn Ashburn Baird Barlow Barlow 
1974-08-12 1988-07-04 1993-05-15 1988-08-08 图 1990-09-27 1995-11-27 1990-03-02 国 2000-08-12 2000-08-12 
13474749741 图 1762384792 国生 和 用 1512374832 13928384294 图 15123983239 国生 和 骨 13598392232 18639238122 图 13839024132 " "" 15523948321 

112 8 234 23 432 98 900 444 EE 


这 3 个 是 叶子 节点 ， 存 储 的 是 不 完 
整 的 用 户 记录 (因为 不 是 聚 簇 索引 ， 
所 以 没有 包含 country 列 ) 









为 了 方便 大 家 理解 ， 我 们 特意 标明 了 哪些 是 内 节点 ， 哪 些 是 叶子 节点 。 再 次 强调 一 下 ， 内 节点 中 存储 的 是 目录 项 
记录 ， 叶 子 节点 中 存储 的 是 用 户 记录 (由 于 不 是 聚 簇 索引 ， 所 以 用 户 记录 是 不 完整 的 ， 缺 少 country 列 的 

值 ) 。 从 图 中 可 以 看 出 ， 这 个 idx_name_birthday_phone_number 索引 对 应 的 B+ 树 中 页 面 和 记录 的 排序 方式 就 是 
这 样 的 : 


。 先 按照 name 列 的 值 进行 排序 。 
。 如 果 name 列 的 值 相 同 ， 则 按照 birthday 列 的 值 进行 排序 。 
。 如 果 birthday 列 的 值 也 相同 ， 则 按照 phone_number 的 值 进行 排序 。 


这 个 排序 方式 十 分 、 特 别 、 非 常 、 巨 、very very very 重 要 ， 因 为 只 要 页 面 和 记录 是 排 好 序 的 ， 我 们 就 可 以 通过 二 
分 法 来 快速 定位 查找 。 下 边 的 内 容 都 仰 仗 这 个 图 了 ， 大 家 对 照 着 图 理解 。 


7.2.1 全 值 匹 配 
如 果 我 们 的 搜索 条 件 中 的 列 和 索引 列 一 致 的 话 ， 这 种 情况 就 称 为 全 值 匹配 ， 比 方 说 下 边 这 个 查找 语句 : 


SELECT x* FROM person info WHERE name = "Ashburn AND birthday =“1990-09-27”AND phone num 
ber = "15123983239’， 


我 们 建立 的 idx_name_birthday_phone_number 索引 包含 的 3 个 列 在 这 个 查询 语句 中 都 展现 出 来 了 。 大 家 可 以 想象 
一 下 这 个 查询 过 程 : 


因为 B+ 树 的 数据 页 和 记录 先是 按照 name 列 的 值 进行 排序 的 ， 所 以 先 可 以 很 快 定 位 name 列 的 值 是 Ashburn 
的 记录 位 置 。 

在 name 列 相同 的 记录 里 又 是 按照 birthday 列 的 值 进 行 排序 的 ， 所 以 在 name 列 的 值 是 Ashburn 的 记录 里 又 
可 以 快速 定位 birthday 列 的 值 是 "1990-09-27” 的 记录 。 

如 果 很 不 幸 ， name 和 birthday 列 的 值 都 是 相同 的 ， 那 记录 是 按照 phone_number 列 的 值 排序 的 ， 所 以 联合 
索引 中 的 三 个 列 都 可 能 被 用 到 。 


有 的 同学 也 许 有 个 疑问 ， WHERE 子 句 中 的 几 个 搜索 条 件 的 顺序 对 查询 结果 有 喻 影响 么 ”也 就 是 说 如 果 我 们 调换 
name 、 birthday 、 phone_number 这 几 个 搜索 列 的 顺序 对 查询 的 执行 过 程 有 影响 么 ? 比方 说 写成 下 边 这 样 : 


SELECT x* FROM person info WHERE birthday = ’ 1990-09-27” AND phone number = "15123983239”A 
ND name =“”Ashburn : 


答案 是 : 没 影响 哈 。 MySQL 有 一 个 叫 查 询 优化 器 的 东 东 ， 会 分 析 这 些 搜索 条 件 并 且 按 照 可 以 使 用 的 索引 中 列 的 顺 
序 来 决定 先 使 用 哪个 搜索 条 件 ， 后 使 用 哪个 搜索 条 件 。 我 们 后 边 儿 会 有 专门 的 章节 来 介绍 查询 优化 器 ， 敬 请 期 
待 
7.2.2 匹配 左边 的 列 
其 实在 我 们 的 搜索 语句 中 也 可 以 不 用 包含 全 部 联合 索引 中 的 列 ， 只 包含 左边 的 就 行 ， 比 方 说 下 边 的 查询 语句 : 
SELECT x* FROM person info WHERE name = ’ Ashburn’: 
或 者 包含 多 个 左边 的 列 也 行 : 
SELECT x* FROM person info WHERE name = ’ Ashburn” AND birthday = “1990-09-27” ; 


那 为 什么 搜索 条 件 中 必须 出 现 左边 的 列 才 可 以 使 用 到 这 个 B+ 树 索引 呢 ” 比 如 下 边 的 语句 就 用 不 到 这 个 B+ 树 索引 
么 ? 


SELECT x* FROM person _ info WHERE birthday = “1990-09-27 ; 


是 的 ， 的 确 用 不 到 ， 因 为 B+ 树 的 数据 页 和 记录 先是 按照 name 列 的 值 排序 的 ， 在 name 列 的 值 相 同 的 情况 下 才 使 
用 birthday 列 进行 排序 ， 也 就 是 说 name 列 的 值 不 同 的 记录 中 birthday 的 值 可 能 是 无 序 的 。 而 现在 你 跳 过 
name 列 直接 根据 birthday 的 值 去 查找 ， 臣 过 做 不 到 呀 ~ 那 如 果 我 就 想 在 只 使 用 birthday 的 值 去 通过 B+ 树 索 
引进 行 查找 咋 办 呢 ? 这 好 办 ， 你 再 对 birthday 列 建 一 个 B+ 树 索引 就 行 了 ， 创 建 索 引 的 语法 不 用 我 踪 叫 了 吧 。 


但 是 需要 特别 注意 的 一 点 是 ， 如 果 我 们 想 使 用 联合 索引 中 尽 可 能 多 的 列 ， 搜 索 条 件 中 的 各 个 列 必 须 是 联合 索引 中 
从 最 左边 连续 的 列 。 比 方 说 联合 索引 idx_name_birthday_phone_number 中 列 的 定义 顺序 是 name 、 
birthday 、 phone number ， 如 果 我 们 的 搜索 条 件 中 只 有 name 和 phone number ， 而 没有 中 间 的 birthday ， 
比方 说 这 样 : 

SELECT x* FROM person info WHERE name =“”“Ashburn” AND phone number = "15123983239’， 


这 样 只 能 用 到 name 列 的 索引 ， birthday 和 phone_number 的 索引 就 用 不 上 了 ， 因 为 name 值 相 同 的 记录 先 按照 
birthday 的 值 进行 排序 ， birthday 值 相 同 的 记录 才 按照 phone_number 值 进行 排序 。 


7.2.3 匹配 列 前 缀 


我 们 前 边 说 过 为 某 个 列 建立 索引 的 意思 其 实 就 是 在 对 应 的 B+ 树 的 记录 中 使 用 该 列 的 值 进行 排序 ， 比 方 说 
person info 表 上 建立 的 联合 索引 idx name birthday phone number 会 先 用 name 列 的 值 进行 排序 ， 所 以 这 个 
联合 索引 对 应 的 B+ 树 中 的 记录 的 name 列 的 排列 就 是 这 样 的 : 


Aaron 
Aaron 
Aaron 
Asa 
Ashburn 





Ashburn 
Baird 


Barlow 

Barlon 
字符 串 排 序 的 本 质 就 是 比较 哪个 字符 串 大 一 点 儿 ， 哪 个 字符 串 小 一 点 ， 比 较 字 符 串 大 小 就 用 到 了 该 列 的 字符 集 和 
比较 规则 ， 这 个 我 们 前 边 儿 啼 明 过 ， 就 不 多 啼 明 了 。 这 里 需要 注意 的 是 ,一般 的 比较 规则 都 是 逐个 比较 字符 的 大 
小 ， 也 就 是 说 我 们 比较 两 个 字符 串 的 大 小 的 过 程 其 实 是 这 样 的 : 


。 先 比较 字符 串 的 第 一 个 字符 ， 第 一 个 字符 小 的 那个 字符 串 就 比较 小 。 
。 如 果 两 个 字符 串 的 第 一 个 字符 相同 ， 那 就 再 比较 第 二 个 字符 ， 第 二 个 字符 比较 小 的 那个 字符 串 就 比较 小 。 
。 如 果 两 个 字符 串 的 第 二 个 字符 也 相同 ， 那 就 接着 比较 第 三 个 字符 ， 依 此 类 推 。 


所 以 一 个 排 好 序 的 字符 串 列 其 实 有 这 样 的 特点 : 
。 先 按照 字符 串 的 第 一 个 字符 进行 排序 。 


。 如 果 第 一 个 字符 相同 再 按照 第 二 个 字符 进行 排序 。 
。 如 果 第 二 个 字符 相同 再 按照 第 三 个 字符 进行 排序 ， 依 此 类 推 。 


也 就 是 说 这 些 字符 串 的 前 n 个 字符 ， 也 就 是 前 缀 都 是 排 好 序 的 ， 所 以 对 于 字符 串 类 型 的 索引 列 来 说 ， 我 们 只 匹配 
它 的 前 缀 也 是 可 以 快速 定位 记录 的 ， 比 方 说 我 们 想 查 询 名 字 以 As” 开头 的 记录 ， 那 就 可 以 这 么 写 查询 语句 : 


SELECT x* FROM person info WHERE name LIKE “As% ; 
但 是 需要 注意 的 是 ， 如 果 只 给 出 后 缀 或 者 中 间 的 某 个 字符 串 ， 比 如 这 样 : 
SELECT x* FROM person info WHERE name LIKE ’ %As%’; 


MySQL 就 无 法 快速 定位 记录 位 置 了 ， 因 为 字符 串 中 间 有 “As” 的 字符 串 并 没有 排 好 序 ， 所 以 只 能 全 表 扫描 了 。 有 
时 候 我 们 有 一 些 匹配 某 些 字符 串 后 缀 的 需求 ， 比 方 说 某 个 表 有 一 个 url 列 ， 该 列 中 存储 了 许多 url: 





url 





www. baidu. com 
WWW. google. com 


WWW. gOV. cn 


WWW. Wto. org 











假设 已 经 对 该 url 列 创建 了 索引 ， 如 果 我 们 想 查 询 以 com 为 后 缀 的 网 址 的 话 可 以 这 样 写 查 询 条 件 : WHERE url 
LIKE“%com”， 但 是 这 样 的 话 无 法 使 用 该 url 列 的 索引 。 为 了 在 查询 时 用 到 这 个 索引 而 不 至 于 全 表 扫 描 ， 我 们 可 
以 把 后 缀 查询 改写 成 前 绎 查询， 不 过 我 们 就 得 把 表 中 的 数据 全 部 逆序 存储 一 下 ， 也 就 是 说 我 们 可 以 这 样 保存 url 
列 中 的 数据 : 





url 





moc. udiab. www 
moc. elgoog. WWW 


nc. vog. WWW 








gro. Otw. WWW 





这 样 再 查找 以 com 为 后 缀 的 网 址 时 搜索 条 件 便 可 以 这 么 写 : WHERE url LIKE“moc% ， 这 样 就 可 以 用 到 索引 了 。 


7.2.4 匹配 范围 值 


回头 看 我 们 idx_name_birthday_phone_number 索引 的 B+ 树 示意 图 ， 所 有 记录 都 是 按照 索引 列 的 值 从 小 到 大 的 顺 
序 排 好 序 的 ， 所 以 这 极 大 的 方便 我 们 查找 索引 列 的 值 在 某 个 范围 内 的 记录 。 比 方 说 下 边 这 个 查询 语句 : 


SELECT x* FROM person info WHERE name > "Asa ”AND name < ”Barlow ; 
由 于 B+ 树 中 的 数据 页 和 记录 是 先 按 name 列 排序 的 ， 所 以 我 们 上 边 的 查询 过 程 其 实 是 这 样 的 : 


。 找到 name 值 为 Asa 的 记录 。 

。 找到 name 值 为 Barlow 的 记录 。 

。 哦 啦 ， 由 于 所 有 记录 都 是 由 链表 连 起 来 的 (记录 之 间 用 单 链表 ， 数 据 页 之 间 用 双 链 表 ) ， 所 以 他 们 之 间 的 记 
录 都 可 以 很 容易 的 取出 来 嗪 ~ 

。 找到 这 些 记录 的 主键 值 ， 再 到 聚 簇 索引 中 回 表 查找 完整 的 记录 。 


不 过 在 使 用 联合 进行 范围 查找 的 时 候 需 要 注意 ， 如 果 对 多 个 列 同时 进行 范围 查找 的 话 ， 只 有 对 索引 最 左边 的 那个 
列 进行 范围 查找 的 时 候 才能 用 到 B+ 树 索引 ， 比 方 说 这 样 : 





SELECT x* FROM person info WHERE name > "Asa” AND name < ’Barlow ”AND birthday > ”1980-01-0 
1 


上 边 这 个 查询 可 以 分 成 两 个 部 分 : 


1. 通过 条 件 name > "Asa”AND name 《< “Barlow ”来 对 name 进行 范围 ， 查 找 的 结果 可 能 有 多 条 name 值 不 同 的 
记录 ， 
2. 对 这 些 name 值 不 同 的 记录 继续 通过 birthday > ”1980-01-01” 条 件 继续 过 渡 。 
这 样子 对 于 联合 索引 idx_name_birthday_phone_number 来 说 ， 只 能 用 到 name 列 的 部 分 ， 而 用 不 到 birthday 列 
的 部 分 ， 因 为 只 有 name 值 相同 的 情况 下 才能 用 birthday 列 的 值 进 行 排 序 ， 而 这 个 查询 中 通过 name 进行 范围 查 
找 的 记录 中 可 能 并 不 是 按照 birthday 列 进行 排序 的 ， 所 以 在 搜索 条 件 中 继续 以 birthday 列 进 行 查 找 时 是 用 不 到 
这 个 B+ 树 索引 的 。 


7.2.5 精确 匹配 某 一 列 并 范围 匹配 另外 一 列 


对 于 同一 个 联合 索引 来 说 ， 昌 然 对 多 个 列 都 进行 范围 查找 时 只 能 用 到 最 左边 那个 索引 列 ， 但 是 如 果 左 边 的 列 是 精 
确 查找 ， 则 右边 的 列 可 以 进行 范围 查找 ， 比 方 说 这 样 : 


SELECT x* FROM person info WHERE name = ’ Ashburn” AND birthday > "1980-01-01” AND birthday 
< ”2000-12-31” AND phone number > ’ 15100000000’， 


这 个 查询 的 条 件 可 以 分 为 3 个 部 分 : 


1，name =“Ashburn”， 对 name 列 进行 精确 查找 ， 当 然 可 以 使 用 B+ 树 索引 了 。 


2. birthday > "1980-01-01”AND birthday《 2000-12-31”， 由 于 name 列 是 精确 查找 ， 所 以 通过 name = 
"Ashburn ”条 件 查找 后 得 到 的 结果 的 name 值 都 是 相同 的 ， 它 们 会 再 按照 birthday 的 值 进行 排序 。 所 以 此 时 
对 birthday 列 进行 范围 查找 是 可 以 用 到 B+ 树 索引 的 。 

3，phone_number > "15100000000' ， 通 过 birthday 的 范围 查找 的 记录 的 birthday 的 值 可 能 不 同 ， 所 以 这 个 
条 件 无 法 再 利用 B+ 树 索引 了 ， 只 能 遍历 上 一 步 查询 得 到 的 记录 。 


同 理 ， 下 边 的 查询 也 是 可 能 用 到 这 个 idx_name birthday_phone_number 联合 索引 的 : 


SELECT # FROM person info WHERE name = ’ Ashburn” AND birthday =“1980-01-01”AND AND phone 
_number > ”15100000000” ; 


7.2.6 用 于 排序 


我 们 在 写 查 询 语句 的 时 候 经 常 需要 对 查询 出 来 的 记录 通过 ORDER BY 子 句 按照 某 种 规则 进行 排序 。 一 般 情 况 下 ， 
我 们 只 能 把 记录 都 加 载 到 内 存 中 ， 青 用 一 些 排序 算法 ， 比 如 快速 排序 、 归 并 排序 、 吧 啦 吧 啦 排 序 等 等 在 内 存 中 对 
这 些 记 录 进 行 排序 ， 有 的 时 候 可 能 查询 的 结果 集 太 大 以 至 于 不 能 在 内 存 中 进行 排序 的 话 ， 还 可 能 暂时 借助 磁盘 的 
空间 来 存放 中 间 结 果 ， 排 序 操作 完成 后 再 把 排 好 序 的 结果 集 返 回 到 客户 端 。 在 MySQL 中 ， 把 这 种 在 内 存 中 或 者 磁 
盘 上 进行 排序 的 方式 统称 为 文件 排序 (英文 名 : filesort ) ， 跟 文件 这 个 词 儿 一 沾边 儿 ， 就 显得 这 些 排序 操作 
非常 慢 了 (磁盘 和 内 存 的 速度 比 起 来 ， 就 像 是 飞机 和 蜗牛 的 对 比 ) 。 但 是 如 果 ORDER BY 子 句 里 使 用 到 了 我 们 的 
索引 列 ， 就 有 可 能 省 去 在 内 存 或 文件 中 排序 的 步骤 ， 比 如 下 边 这 个 简单 的 查询 语句 : 


SELECT x*¥ FROM person info ORDER BY name, birthday, phone number LIMIT 10; 


这 个 查询 的 结果 集 需 要 先 按照 name 值 排序 ， 如 果 记 录 的 name 值 相同 ， 则 需要 按照 birthday 来 排序 ， 如 果 
birthday 的 值 相同 ， 则 需要 按照 phone_number 排序 。 大 家 可 以 回 过 头 去 看 我 们 建立 的 
idx_name_birthday_phone_number 索引 的 示意 图 ， 因 为 这 个 B+ 树 索 引 本 身 就 是 按照 上 述 规则 排 好 序 的 ， 所 以 直 





接 从 索引 中 提取 数据 ， 然 后 进行 回 表 操作 取出 该 索引 中 不 包含 的 列 就 好 了 。 简 单 吧 ” 是 的 ， 索 引 就 是 这 么 牛 
通 。 


7.2.6.1 使 用 联合 索引 进行 排序 注意 事项 


对 于 联合 索引 有 个 问题 需要 注意 ， ORDER BY 的 子 句 后 边 的 列 的 顺序 也 必须 按照 索引 列 的 顺序 给 出 ， 如 果 给 出 
ORDER BY phone_number，birthday，name 的 顺序 ， 那 也 是 用 不 了 B+ 树 索引 ， 这 种 颠倒 顺序 就 不 能 使 用 索引 的 
原因 我 们 上 边 详细 说 过 了 ， 这 就 不 袭 述 了 。 


同 理 ， ORDER BY name 、 ORDER BY name，birthday 这 种 匹配 索引 左边 的 列 的 形式 可 以 使 用 部 分 的 B+ 树 索引 。 
当 联 合 索引 左边 列 的 值 为 常量 ， 也 可 以 使 用 后 边 的 列 进行 排序 ， 比 如 这 样 : 


SELECT x* FROM person _ info WHERE name = "A” ORDER BY birthday, phone number LIMIT 10; 
这 个 查询 能 使 用 联合 索引 进行 排序 是 因为 name 列 的 值 相同 的 记录 是 按照 birthday ，phone_number 排序 的 ,说 
了 好 多 遍 了 都 。 


7.2.6.2 不 可 以 使 用 索引 进行 排序 的 几 种 情况 


ASC、DESC 疡 历 


对 于 使 用 联合 索引 进行 排序 的 场景 ， 我 们 要 求 各 个 排序 列 的 排序 顺序 是 一 致 的 ， 也 就 是 要 么 各 个 列 都 是 ASC 规则 
排序 ， 要 么 都 是 DESC 规则 排序 。 


小 贴 士 : 
ORDER BY 子 句 后 的 列 如 果 不 加 ASC 或 者 DESC 默 认 是 按照 ASC 排 序 规 则 排序 的 ， 也 就 是 升序 排序 的 。 











为 哈 会 有 这 种 奇 琵 规定 呢 ? 这 个 还 得 回头 想 想 这 个 idx_name birthday phone_number 联合 索引 中 记录 的 结构 : 


。 先 按照 记录 的 name 列 的 值 进行 升序 排列 。 
。 如 果 记 录 的 name 列 的 值 相同 ， 再 按照 birthday 列 的 值 进行 升序 排列 。 
。 如 果 记 录 的 birthday 列 的 值 相同 ， 再 按照 phone_numper 列 的 值 进行 升序 排列 。 


如 果 查 询 中 的 各 个 排序 列 的 排序 顺序 是 一 致 的 ， 比 方 说 下 边 这 两 种 情况 : 
。 ORDER BY name，birthday LIMIT 10 


这 种 情况 直接 从 索引 的 最 左边 开始 往 右 读 10 行 记录 就 可 以 了 。 
ORDER BY name DESC, birthday DESC LIMIT 10 ， 


这 种 情况 直接 从 索引 的 最 右边 开始 往 左 读 10 行 记录 就 可 以 了 。 


但 是 如 果 我 们 查询 的 需求 是 先 按照 name 列 进行 升序 排列 ， 再 按照 birthday 列 进行 降序 排列 的 话 ， 比 如 说 这 样 的 
查询 语句 : 


SELECT *¥ FROM person info ORDER BY name, birthday DESC LIMIT 10; 
这 样 如 果 使 用 索引 排序 的 话 过 程 就 是 这 样 的 : 


。 先 从 索引 的 最 左边 确定 name 列 最 小 的 值 ， 然 后 找到 name 列 等 于 该 值 的 所 有 记录 ， 然 后 从 name 列 等 于 该 值 
的 最 右边 的 那 条 记录 开始 往 左 找 10 条 记录 。 

。 如 果 name 列 等 于 最 小 的 值 的 记录 不 足 10 条 ， 再 继续 往 右 找 name 值 第 二 小 的 记录 ， 重 复 上 边 那 个 过 程 ， 直 
到 找到 10 条 记录 为 止 。 


累 不 累 ? 累 ! 重点 是 这 样 不 能 高 效 使 用 索引 ， 而 要 采取 更 复杂 的 算法 去 从 索引 中 取 数 据 ， 设 计 MySQL 的 大 叔 觉 得 
这 样 还 不 如 直接 文件 排序 来 的 快 ， 所 以 就 规定 使 用 联合 索引 的 各 个 排序 列 的 排序 顺序 必须 是 一 致 的 。 
WHERE FHM MTA PEER3)5) 
如 果 WHERE 子 句 中 出 现 了 非 排序 使 用 到 的 索引 列 ， 那 么 排序 依然 是 使 用 不 到 索引 的 ， 比 方 说 这 样 : 
SELECT x* FROM person info WHERE country = "China” ORDER BY name LIMIT 10; 


这 个 查询 只 能 先 把 符合 搜索 条 件 country =“China” 的 记录 提取 出 来 后 再 进行 排序 ， 是 使 用 不 到 索引 。 注 意 和 下 
边 这 个 查询 作 区 别 : 


SELECT * FROM person info WHERE name = ’A’ ORDER BY birthday, phone number LIMIT 10; 
虽然 这 个 查询 也 有 搜索 条 件 ， 但 是 name =“A” 可 以 使 用 到 索引 idx_name_birthday_phone_number ， 而 且 过 滤 剩 
下 的 记录 还 是 按照 birthday 、 phone_number 列 排序 的 ， 所 以 还 是 可 以 使 用 索引 进行 排序 的 。 
WF/EEIF— 人 个 宅 5/W9F) 

有 时 候 用 来 排序 的 多 个 列 不 是 一 个 索引 里 的 ， 这 种 情况 也 不 能 使 用 索引 进行 排序 ， 比 方 说 : 

SELECT * FROM person info ORDER BY name, country LIMIT 10; 
name 和 country 并 不 属于 一 个 联合 索引 中 的 列 ， 所 以 无 法 使 用 索引 进行 排序 ， 至 于 为 哈 我 就 不 想 再 踪 咏 了 ， 自 
己 用 前 边 的 理论 自己 返 一 返 把 ~ 
LEZ TP IL 
要 想 使 用 索引 进行 排序 操作 ， 必 须 保 证 索引 列 是 以 单独 列 的 形式 出 现 ， 而 不 是 修饰 过 的 形式 ， 比 方 说 这 样 : 

SELECT * FROM person info ORDER BY UPPER(name) LIMIT 10; 


使 用 了 UPPRR 函数 修饰 讨 的 列 就 不 是 单独 的 列 啦 ， 议 样 就 无 法 伟 用 专 引 讲 行 扯 序 啦 - 


7.2.7 用 于 分 组 
有 时 候 我 们 为 了 方便 统计 表 中 的 一 些 信息 ， 会 把 表 中 的 记录 按照 某 些 列 进行 分 组 。 比 如 下 边 这 个 分 组 查询 : 


SELECT name, birthday, phone number, COUNT(x*) FROM person _ info GROUP BY name, birthday, ph 


one number 
这 个 查询 语句 相当 于 做 了 3 次 分 组 操作 : 


1. 先 把 记录 按照 name 值 进行 分 组 ， 所 有 name 值 相同 的 记录 划分 为 一 组 。 
2. 将 每 个 name 值 相同 的 分 组 里 的 记录 再 按照 birthday 的 值 进行 分 组 ， 将 birthday 值 相同 的 记录 放 到 一 个 小 
分 组 里 ， 所 以 看 起 来 就 像 在 一 个 大 分 组 里 又 化 分 了 好 多 小 分 组 。 

3. 再 将 上 一 步 中 产生 的 小 分 组 按照 phone_number 的 值 分 成 更 小 的 分 组 ， 所 以 整体 上 看 起 来 就 像 是 先 把 记录 分 
成 一 个 大 分 组 ， 然 后 把 大 分 组 分 成 若干 个 小 分 组 ， 然 后 把 若干 个 小 分 组 再 细 分 成 更 多 的 小 小 分 组 。 
然后 针对 那些 小 小 分 组 进行 统计 ， 比 如 在 我 们 这 个 查询 语句 中 就 是 统计 每 个 小 小 分 组 包含 的 记录 条 数 。 如 果 没 
有 索引 的 话 ， 这 个 分 组 过 程 全 部 需要 在 内 存 里 实现 ， 而 如 果 有 了 索引 的 话 ， 恰 巧 这 个 分 组 顺序 又 和 我 们 的 B+ 树 
中 的 索引 列 的 顺序 是 一 致 的 ， 而 我 们 的 B+ 树 索引 又 是 按照 索引 列 排 好 序 的 ， 这 不 正好 么 ， 所 以 可 以 直接 使 用 

B+ 树 索引 进行 分 组 。 


和 使 用 B+ 树 索引 进行 排序 是 一 个 道理 ， 分 组 列 的 顺序 也 需要 和 索引 列 的 顺序 一 致 ， 也 可 以 只 使 用 索引 列 中 左边 
的 列 进行 分 组 ， 吧 啦 吧 啦 的 ~ 


7.3 回 表 的 代价 


上 边 的 讨论 对 回 表 这 个 词 儿 多 是 一 带 而 过 ， 可 能 大 家 没 喻 深刻 的 体会 ， 下 边 我 们 详细 路 归 下 。 还 是 用 
idx name birthday phone_number 索引 为 例 ， 看 下 边 这 个 查询 : 





SELECT x* FROM person info WHERE name > ”Asa” AND name < ”Barlow ; 
在 使 用 idx_name_birthday_phone_number 索引 进行 查询 时 大 致 可 以 分 为 这 两 个 步骤 : 


1. 从 索引 idx name birthday phone _number 对 应 的 B+ 树 中 取出 name 值 在 Asa ~ Barlow 之 间 的 用 户 记 录 。 

2. 由 于 索引 idx name birthday phone number 对 应 的 B+ 树 用 户 记 录 中 只 包含 name 、 birthday 、 
phone_number 、 id 这 4 个 字段 ， 而 查询 列表 是 * ， 意 味 着 要 查询 表 中 所 有 字段 ， 也 就 是 还 要 包括 country 
字段 。 这 时 需要 把 从 上 一 步 中 获取 到 的 每 一 条 记录 的 id 字段 都 到 聚 簇 索 引 对 应 的 B+ 树 中 找到 完整 的 用 户 记 
录 ， 也 就 是 我 们 通常 所 说 的 回 表 ， 然 后 把 完整 的 用 户 记 录 返 回 给 查询 用 户 。 


由 于 索引 idx_name_birthday_phone_number 对 应 的 B+ 树 中 的 记录 首先 会 按照 name 列 的 值 进行 排序 ， 所 以 值 
在 Asa ~ Barlow 之 间 的 记录 在 磁盘 中 的 存储 是 相连 的 ， 集 中 分 布 在 一 个 或 几 个 数据 页 中 ， 我 们 可 以 很 快 的 把 这 
些 连 着 的 记录 从 磁盘 中 读 出 来 ， 这 种 读 取 方 式 我 们 也 可 以 称 为 顺序 1/0 。 根 据 第 1 步 中 获取 到 的 记录 的 id 字段 
的 值 可 能 并 不 相连 ， 而 在 聚 篮 索 引 中 记录 是 根据 id (也 就 是 主键 ) 的 顺序 排列 的 ， 所 以 根据 这 些 并 不 连续 的 id 
值 到 聚 徐 索 引 中 访问 完整 的 用 户 记 录 可 能 分 布 在 不 同 的 数据 页 中 ， 这 样 读 取 完 整 的 用 户 记 录 可 能 要 访问 更 多 的 数 
据 页 ， 这 种 读 取 方式 我 们 也 可 以 称 为 随机 1/0 。 一 般 情况 下 ， 上 顺序/O 比 随机 W/O 的 性 能 高 很 多 ， 所 以 步骤 1 的 执行 
可 能 很 快 ， 而 步骤 2 就 慢 一 些 。 所 以 这 个 使 用 索引 idx_name_birthday_phone_number 的 查询 有 这 么 两 个 特点 : 


。 会 使 用 到 两 个 B+ 树 索引 ， 一 个 二 级 索引 ， 一 个 聚 禾 索 引 。 
。 访问 二 级 索引 使 用 顺序 I/0 ， 访 问 聚 簇 索 引 使 用 随机 I/0 。 


需要 回 表 的 记录 越 多 ， 使 用 二 级 索引 的 性 能 就 越 低 ， 甚 至 让 某 些 查询 宁愿 使 用 全 表 扫 描 也 不 使 用 二 级 索引 。 比 
方 说 name 值 在 Asa ~ Barlow 之 间 的 用 户 记 录 数 量 占 全 部 记录 数量 90% 以 上 ， 那 么 如 果 使 用 

idx_name_ birthday_ phone_number 索引 的 话 ， 有 90% 多 的 id 值 需要 回 表 ， 这 不 是 吃力 不 讨好 么 ， 还 不 如 直接 去 
扫描 聚 徐 索 引 (也 就 是 全 表 扫 描 ) 。 








那 什么 时 候 采 用 全 表 扫 描 的 方式 ， 什 么 时 候 使 用 采用 二 级 索引 + 回 表 的 方式 去 执行 查询 呢 ? 这 个 就 是 传说 中 的 
查询 优化 器 做 的 工作 ， 查 询 优化 器 会 事先 对 表 中 的 记录 计算 一 些 统计 数据 ， 然 后 再 利用 这 些 统计 数据 根据 查询 的 
条 件 来 计算 一 下 需要 回 表 的 记录 数 ， 需 要 回 表 的 记录 数 越 多 ， 就 越 倾向 于 使 用 全 表 扫 朱 ， 反 之 倾向 于 使 用 二 级 索 
引 + 回 表 的 方式 。 当 然 优 化 器 做 的 分 析 工 作 不 仅仅 是 这 么 简单 ， 但 是 大 致 上 是 个 这 个 过 程 。 一 般 情况 下 ， 限 制 
查询 获取 较 少 的 记录 数 会 让 优化 器 更 倾向 于 选择 使 用 二 级 索引 + 回 表 的 方式 进行 查询 ， 因 为 回 表 的 记录 越 少 ， 

性 能 提升 就 越 高 ， 比 方 说 上 边 的 查询 可 以 改写 成 这 样 : 








SELECT x* FROM person info WHERE name > "Asa ”AND name < ’Barlow LIMIT 10; 





添加 了 LIMIT 10 的 查询 更 容易 让 优化 器 采用 二 级 索引 + 回 表 的 方式 进行 查询 。 


对 于 有 排序 需求 的 查询 ， 上 边 讨论 的 采用 全 表 扫 描 还 是 二 级 索引 + 回 表 的 方式 进行 查询 的 条 件 也 是 成 立 的 ， 
比方 说 下 边 这 个 查询 : 











SELECT x* FROM person info ORDER BY name, birthday, phone number; 


由 于 查询 列表 是 * ， 所 以 如 果 使 用 二 级 索引 进行 排序 的 话 ， 需 要 把 排序 完 的 二 级 索引 记录 全 部 进行 回 表 操 作 ， 这 
样 操作 的 成 本 还 不 如 直接 遍历 聚 簇 索引 然后 再 进行 文件 排序 ( filesort ) 低 ， 所 以 优化 器 会 倾向 于 使 用 全 表 扫 
描 的 方式 执行 查询 。 如 果 我 们 加 了 LIMIT 子 句 ， 比 如 这 样 : 

















SELECT x* FROM person info ORDER BY name, birthday, phone number LIMIT 10; 


这 样 需要 回 表 的 记录 特别 少 ， 优 化 器 就 会 倾向 于 使 用 二 级 索引 + 回 表 的 方式 执行 查询 。 


7.3.1 覆盖 索引 
为 了 彻底 告别 回 表 操作 带 来 的 性 能 损耗 ， 我 们 建议 : 最 好 在 查询 列表 里 只 包含 索引 列 ， 比 如 这 样 : 





SELECT name, birthday, phone number FROM person info WHERE name > "Asa” AND name < “Barlo 
w 


因为 我 们 只 查询 name ，birthday ，phone_number 这 三 个 索引 列 的 值 ， 所 以 在 通过 
idx_name_birthday_phone_number 索引 得 到 结果 后 就 不 必 到 聚 复 索引 中 再 查找 记录 的 剩余 列 ， 也 就 是 
country 列 的 值 了 ， 这 样 就 省 去 了 回 表 操作 带 来 的 性 能 损耗 。 我 们 把 这 种 只 需要 用 到 索引 的 查询 方式 称 为 索引 
覆盖 。 排 序 操作 也 优先 使 用 覆盖 索引 的 方式 进行 查询 ， 比 方 说 这 个 查询 : 





SELECT name, birthday, phone number FROM person info ORDER BY name, birthday, phone numbe 
r, 


虽然 这 个 查询 中 没有 LIMIT 子 句 ， 但 是 采用 了 获 盖 索引 ， 所 以 查询 优化 器 就 会 直接 使 用 
idx_name_birthday_phone_number 索引 进行 排序 而 不 需要 回 表 操 作 了 。 


当然 ， 如 果 业 务 需要 查询 出 索引 以 外 的 列 ， 那 还 是 以 保证 业务 需求 为 重 。 但 是 我 们 很 不 鼓励 用 * 号 作为 查询 列 
表 ， 最 好 把 我 们 需要 查询 的 列 依次 标明 。 

7.4 如 何 挑选 索引 

上 边 我 们 以 idx_name_birthday_phone_number 索引 为 例 对 索引 的 适用 条 件 进 行 了 详细 的 踪 明 ， 下 边 看 一 下 我 们 
在 建立 索引 时 或 者 编写 查询 语句 时 就 应 该 注意 的 一 些 事项 。 

7.4.1 只 为 用 于 搜索 、 排 序 或 分 组 的 列 创建 索引 


也 就 是 说 ， 只 为 出 现在 WHERE 子 句 中 的 列 、 连 接 子 句 中 的 连接 列 ,或 者 出 现在 ORDER BY 或 GROUP BY 子 句 中 的 
列 创建 索引 。 而 出 现在 查询 列表 中 的 列 就 没 必要 建立 索引 了 : 


SELECT birthday. country FROM person name WHERE name = “Ashburn : 


像 查询 列表 中 的 birthday 、 country 这 两 个 列 就 不 需要 建立 索引 ， 我 们 只 需要 为 出 现在 WHERE 子 句 中 的 name 
列 创建 索引 就 可 以 了 。 


7.4.2 考虑 列 的 基数 


列 的 基数 指 的 是 某 一 列 中 不 重复 数据 的 个 数 ， 比 方 说 某 个 列 包 含 值 2，5，8，2，5，8，2，5，8 ， 虽 然 有 9 条 
记录 ， 但 该 列 的 基数 却 是 3 。 也 就 是 说 ， 在 记录 行 数 一 定 的 情况 下 ， 列 的 基数 越 大 ， 该 列 中 的 值 越 分 散 ， 列 的 基 
数 越 小 ， 该 列 中 的 值 越 集中 。 这 个 列 的 基数 指标 非常 重要 ， 直 接 影响 我 们 是 否 能 有 效 的 利用 索引 。 假 设 某 个 列 
的 基数 为 1 ， 也 就 是 折 有 记录 在 该 列 中 的 值 都 一 样 ， 那 为 该 列 建立 索引 是 没有 用 的 ， 因 为 所 有 值 都 一 样 就 无 法 排 
序 ， 无 法 进行 快速 查找 了 ~ 而 且 如 果 某 个 建立 了 二 级 索引 的 列 的 重复 值 特别 多 ， 那 么 使 用 这 个 二 级 索引 查 出 的 记 
录 还 可 能 要 做 回 表 操作 ， 这 样 性 能 损耗 就 更 大 了 。 所 以 结论 就 是 : 最 好 为 那些 列 的 基数 大 的 列 建 立 索 引 ， 为 基数 
太 小 列 的 建立 索引 效果 可 能 不 好 。 





7.4.3 索引 列 的 类 型 尽量 小 


我 们 在 定义 表 结 构 的 时 候 要 显 式 的 指定 列 的 类 型 ， 以 整数 类 型 为 例 有 TINYINT 、 MEDIUMINT 、 INT 、 BIGINT 
这 么 几 种 ， 它 们 占用 的 存储 空间 依次 递增 ， 我 们 这 里 所 说 的 类 型 大 小 指 的 就 是 该 类 型 表示 的 数据 范围 的 大 小 。 
能 表示 的 整数 学 围 当然 也 是 依次 递增 ， 如 果 我 们 想 要 对 某 个 整数 列 建立 索引 的 话 ， 在 表示 的 整数 学 围 允许 的 情况 
下 ， 尽 量 让 索引 列 使 用 较 小 的 类 型 ， 比 如 我 们 能 使 用 INT 就 不 要 使 用 BIGINT ， 能 使 用 MEDIUMINT 就 不 要 使 用 
INT ~ 这 是 因为 : 


。 数据 类 型 越 小 ， 在 查询 时 进行 的 比较 操作 越 快 (这 是 CPU 层 次 的 东 东 ) 
。 数据 类 型 越 小 ， 索 引 占 用 的 存储 空间 就 越 少 ， 在 一 个 数据 页 内 就 可 以 放下 更 多 的 记录 ， 从 而 减少 磁盘 1/0 带 
来 的 性 能 损耗 ， 也 就 意味 着 可 以 把 更 多 的 数据 页 缓存 在 内 存 中 ， 从 而 加 快 读 写 效率 。 


这 个 建议 对 于 表 的 主键 来 说 更 加 适用 ， 因 为 不 仪 是 聚 篮 索引 中 会 存储 主键 值 ， 其 他 所 有 的 二 级 索引 的 节点 处 都 会 
存储 一 份 记 录 的 主键 值 ， 如 果 主 键 适 用 更 小 的 数据 类 型 ， 也 就 意味 着 节省 更 多 的 存储 空间 和 更 高 效 的 1/0 。 


7.4.4 索引 字符 串 值 的 前 级 


我 们 知道 一 个 字符 串 其 实 是 由 若干 个 字符 组 成 ， 如 果 我 们 在 MySQL 中 使 用 utf8 字符 集 去 存储 字符 中 的话， 编码 
一 个 字符 需要 占用 1 3 个 字 节 。 假 设 我 们 的 字符 串 很 长 ， 那 存储 一 个 字符 串 就 需要 占用 很 大 的 存储 空间 。 在 我 们 
需要 为 这 个 字符 串 列 建立 索引 时 ， 那 就 意味 着 在 对 应 的 B+ 树 中 有 这 么 两 个 问题 : 


。 B+ 树 索引 中 的 记录 需要 把 该 列 的 完整 字符 串 存 储 起 来 ， 而 且 字符 串 越 长 ， 在 索引 中 占用 的 存储 空间 越 大 。 
。 如 果 B+ 树 索引 中 索引 列 存储 的 字符 串 很 长 ， 那 在 做 字符 串 比 较 时 会 占用 更 多 的 时 间 。 


我 们 前 边 儿 说 过 索引 列 的 字符 串 前 缀 其 实 也 是 排 好 序 的 ， 所 以 索引 的 设计 者 提出 了 个 方案 --- 只 对 字符 串 的 前 几 
个 字符 进行 索引 也 就 是 说 在 二 级 索引 的 记录 中 只 保留 字符 串 前 几 个 字符 。 这 样 在 查找 记录 时 虽然 不 能 精确 的 定位 
到 记录 的 位 置 ， 但 是 能 定位 到 相应 前 缀 所 在 的 位 置 ， 然 后 根据 前 缀 相同 的 记录 的 主键 值 回 表 查 询 完 整 的 字符 串 
值 ， 再 对 比 就 好 了 。 这 样 只 在 B+ 树 中 存储 字符 串 的 前 几 个 字符 的 编码 ， 既 节约 空间 ， 又 减少 了 字符 串 的 比较 时 
闻 ， 还 大 概 能 解决 排序 的 问题 ， 何 乐 而 不 为 ， 比 方 说 我 们 在 建 表 语句 中 只 对 name 列 的 前 10 个 字符 进行 索引 可 以 
这 么 写 : 


CREATE TABLE person info( 
name VARCHAR(100) NOT NULL, 
birthday DATE NOT NULL, 
phone number CHAR(11) NOT NULL, 
country varchar (100) NOT NULL, 
KEY idx name birthday phone number (name (10), birthday, phone number) 


) ; 


name (10) 就 表示 在 建立 的 B+ 树 索引 中 只 保留 记录 的 前 10 个 字符 的 编码 ， 这 种 只 索引 字符 串 值 的 前 缀 的 策略 是 
我 们 非常 鼓励 的 ， 尤 其 是 在 字符 串 类 型 能 存储 的 字符 比较 多 的 时 候 。 


7.4.4.1 索引 列 前 缀 对 排序 的 影响 
如 果 使 用 了 索引 列 前 缀 ， 比 方 说 前 边 只 把 name 列 的 前 10 个 字符 放 到 了 二 级 索引 中 ， 下 边 这 个 查询 可 能 就 有 点 儿 
尴 众 了 : 

SELECT * FROM person info ORDER BY name LIMIT 10: 


因为 二 级 索引 中 不 包含 完整 的 name 列 信息 ， 所 以 无 法 对 前 十 个 字符 相同 ， 后 边 的 字符 不 同 的 记录 进行 排序 ， 也 
就 是 使 用 索引 列 前 缀 的 方式 无 法 支持 使 用 索引 排序 ， 只 好 乖 禾 的 用 文件 排序 唆 。 


7.4.5 让 索引 列 在 比较 表达 式 中 单独 出 现 


假设 表 中 有 一 个 整数 列 my_col ， 我 们 为 这 个 列 建立 了 索引 。 下 边 的 两 个 WHERE 子 句 昌 然 语义 是 一 致 的， 但 是 在 
效率 上 却 有 差别 : 


1. WHERE my col * 2《 4 
2. WHERE my col < 4/2 


第 1 个 WHERE 子 句 中 my_col 列 并 不 是 以 单独 列 的 形式 出 现 的 ， 而 是 以 my_col * 2 这 样 的 表达 式 的 形式 出 现 的 ， 
存储 引擎 会 依次 遍历 所 有 的 记录 ， 计 算 这 个 表达 式 的 值 是 不 是 小 于 4 ， 所 以 这 种 情况 下 是 使 用 不 到 为 my col 列 
建立 的 B+ 树 索引 的 。 而 第 2 个 WHERE 子 句 中 my_col 列 并 是 以 单独 列 的 形式 出 现 的 ， 这 样 的 情况 可 以 直接 使 用 
B+ 树 索引 。 


所 以 结论 就 是 : 如 果 索 引 列 在 比较 表达 式 中 不 是 以 单独 列 的 形式 出 现 ， 而 是 以 某 个 表达 式 ， 或 者 函数 调用 形式 出 
现 的 话 ， 是 用 不 到 索引 的 。 
7.4.6 主键 插入 顺序 


我 们 知道 ， 对 于 一 个 使 用 InnoDB 存储 引擎 的 表 来 说 ， 在 我 们 没有 显 式 的 创建 索引 时 ， 表 中 的 数据 实际 上 都 是 存 
储 在 聚 簇 索引 的 叶子 节点 的 。 而 记录 又 是 存储 在 数据 页 中 的 ， 数 据 页 和 记录 又 是 按照 记录 主键 值 从 小 到 大 的 顺 
序 进行 排序 ， 所 以 如 果 我 们 插入 的 记录 的 主键 值 是 依次 增 大 的 话 ， 那 我 们 每 插 满 一 个 数据 页 就 换 到 下 一 个 数据 页 
继续 插 ， 而 如 果 我 们 插入 的 主键 值 忽 大 忽 小 的 话 ， 这 就 比较 麻烦 了 ， 假 设 某 个 数据 页 存储 的 记录 已 经 满 了 ， 它 存 
储 的 主键 值 在 1 100 之 间 : 


四 四 加 加 加 


如 果 此 时 再 插入 一 条 主键 值 为 9 的 记录 ， 那 它 插入 的 位 置 就 如 下 图 : 


中 已 所 加 加 





可 这 个 数据 页 已 经 满 了 啊 ， 再 揪 进 来 咋 办 呢 ?” 我 们 需要 把 当前 页 面 分 裂 成 两 个 页 面 ， 把 本 页 中 的 一 些 记录 移动 到 
新 创建 的 这 个 页 中 。 页 面 分 裂 和 记录 移 位 意味 着 什么 ”意味 着 : 性 能 损耗 ! 所 以 如 果 我 们 想 尽 量 避 免 这 样 无 谓 的 
性 能 损耗 ， 最 好 让 插入 的 记录 的 主键 值 依 次 递增 ， 这 样 就 不 会 发 生 这 样 的 性 能 损耗 了 。 所 以 我 们 建议 : 让 主键 具 
有 AUTO_INCREMENT ， 让 存储 引擎 自己 为 表 生 成 主键 ， 而 不 是 我 们 手动 插入 ， 比 方 说 我 们 可 以 这 样 定 义 


person info 表 : 


CREATE TABLE person info 人 


从 


id INT UNSIGNED NOT NULL AUTO_ INCREMENT, 

name VARCHAR(100) NOT NULL, 

birthday DATE NOT NULL, 

phone number CHAR(11) NOT NULL, 

country varchar (100) NOT NULL, 

PRIMARY KEY (id), 

KEY idx name birthday phone number (name (10), birthday, phone number) 


我 们 自 定义 的 主键 列 id 拥有 AUTO_INCREMENT 属性 ， 在 插入 记录 时 存储 引擎 会 自动 为 我 们 填 入 自 增 的 主键 值 。 


7.4.7 元 余 和 重复 索引 
有 时 候 有 的 同学 有 意 或 者 无 意 的 就 对 同一 个 列 创建 了 多 个 索引 ， 比 方 说 这 样 写 建 表 语句 : 


CREATE TABLE person info( 


让 


id INT UNSIGNED NOT NULL AUTO_ INCREMENT, 

name VARCHAR(100) NOT NULL， 

birthday DATE NOT NULL， 

phone number CHAR(11) NOT NULL, 

country varchar (100) NOT NULL, 

PRIMARY KEY (id), 

KEY idx name birthday phone number (name (10), birthday, phone number), 
KEY idx name (name (10)) 


我 们 知道 ， 通 过 idx_name_birthday_phone_number 索引 就 可 以 对 name 列 进行 快速 搜索 ， 再 创建 一 个 专门 针对 
name 列 的 索引 就 算是 一 个 元 余 索引 ， 维 护 这 个 索引 只 会 增加 维护 的 成 本 ， 并 不 会 对 搜索 有 什么 好 处 。 


另 一 种 情况 ， 我 们 可 能 会 对 某 个 列 重 复 建 立 索引 ， 比 方 说 这 样 : 


CREATE TABLE repeat index demo ( 
cl INT PRIMARY KEY, 
c2 TINT， 
UNIQUE uidx cl (cl)， 
INDEX idx_cl (cl) 
) ; 


我 们 看 到 ， c1 既是 主键 、 又 给 它 定义 为 一 个 唯一 索引 ， 还 给 它 定义 了 一 个 普通 索引 ， 可 是 主键 本 身 就 会 生成 聚 
簇 索 引 ， 所 以 定义 的 唯一 索引 和 普通 索引 是 重复 的 ， 这 种 情况 要 避免 
7.5 总 结 


上 边 只 是 我 们 在 创建 和 使 用 B+ 树 索引 的 过 程 中 需要 注意 的 一 些 点 ， 后 边 我 们 还 会 陆续 介绍 更 多 的 优化 方法 和 注 
意 事项 ， 敬 请 期 待 。 本 集 内 容 总 结 如 下 : 


1. 


[we 


+ 树 索引 在 空间 和 时 间 上 都 有 代价 ， 所 以 没事 儿 别 瞎 建 索引 。 
+ 树 索引 适用 于 下 边 这 些 情况 : 


。 全 值 匹 配 
。 匹配 左边 的 列 
。 匹配 范围 什 
。 精确 匹配 某 一 列 并 范围 匹配 另外 一 列 
。 用 于 排序 
。 用 于 分 组 
3. 在 使 用 索引 时 需要 注意 下 边 这 些 事项 : 





ee| 


。 只 为 用 于 搜索 、 排 序 或 分 组 的 列 创建 索引 
。 为 列 的 基数 大 的 列 创建 索引 

索引 列 的 类 型 尽量 小 

。 可 以 只 对 字符 串 值 的 前 缀 建立 索引 

只 有 索引 列 在 比较 表达 式 中 单独 出 现 才 可 以 适用 索引 

。 为 了 尽 可 能 少 的 让 聚 艇 索引 发 生 页 面 分 裂 和 记录 移 位 的 情况 ， 建 议 让 主键 拥有 AUT0_INCREMENT 属性 。 
定位 并 删除 表 中 的 重复 和 元 余 索 引 

。 尽量 使 用 覆盖 索引 进行 查询 ， 避 免 回 表 带 来 的 性 能 损耗 。 





8 第 8 草 数据 的 家 -MySQL 的 数据 目录 


标签 : MySQL 是 怎样 运行 的 


8.1 数据 库 和 文件 系统 的 关系 


我 们 知道 像 InnoDB 、 MyISAM 这 样 的 存储 引擎 都 是 把 表 存 储 在 磁盘 上 的 ， 而 操作 系统 用 来 管理 磁盘 的 那个 东 东 又 
被 称 为 文件 系统 ， 所 以 用 专业 一 点 的 话 来 表述 就 是 : 像 nnoDB8 、 MyISAM 这 样 的 存储 引 警 都 是 把 表 存 储 在 文 
件 系统 上 的 。 当 我 们 想 读 取 数 据 的 时 候 ， 这 些 存储 引擎 会 从 文件 系统 中 把 数据 读 出 来 返回 给 我 们 ， 当 我 们 想 写 入 
数据 的 时 候 ， 这 些 存 储 引擎 会 把 这 些 数 据 又 写 回 文件 系统 。 本 章 就 是 要 噶 明 一 下 InnoDB 和 MyISAM 这 两 个 存储 引 
擎 的 数据 如 何在 文件 系统 中 存储 的 。 


8.2 MySQL 数 据 目 录 





MySQL 服 务 器 程序 在 启动 时 会 到 文件 系统 的 某 个 目录 下 加 载 一 些 文件 ， 之 后 在 运行 过 程 中 产生 的 数据 也 都 会 存储 
到 这 个 目录 下 的 某 些 文件 中 ， 这 个 目录 就 称 为 数据 目录 ， 我 们 下 边 就 要 详细 踪 啼 这 个 目录 下 具体 都 有 哪些 重要 
的 东西 。 

















8.2.1 数据 目录 和 安装 目录 的 区 别 


我 们 之 前 只 接触 过 MySQL 的 安装 目录 (在 安装 MySQL 的 时 候 我 们 可 以 自己 指定 ) ， 我 们 重点 强调 过 这 个 安装 目 
录 下 非常 重要 的 bin 目录 ， 它 里 边 存储 了 许多 关于 控制 客户 端 程序 和 服务 器 程序 的 命令 (许多 可 执行 文件 ， 比 
如 mysql ， mysqld ， mysqld_safe 等 等 等 等 好 几 十 个 ) 。 而 数据 目录 是 用 来 存储 MySQL 在 运行 过 程 中 产生 的 
数据 ， 一 定 要 和 本 章 要 讨论 的 安装 目录 区 别 开 ! 一 定 要 区 分 开 ! 一 定 要 区 分 开 ! 一 定 要 区 分 开 ! 




















8.2.2 如 何 确定 MySQL 中 的 数据 目录 


那 说 了 半天 ， 到 | 底 MySQL 把 数据 都 存 到 哪个 路 径 下 呢 ? 其实 数据 目录 对 应 着 一 个 系统 变量 datadir ， 我 们 在 使 
用 客户 端 与 服务 器 建立 连接 之 后 查看 这 个 系统 变量 的 值 就 可 以 了 : 

















mysql> SHOW VARIABLES LIKE“datadir ; 





| Variable name | Value 





| datadir /usr/local/var/mysql/ 











1 row in set (0.00 sec) 


从 结果 中 可 以 看 出 ， 在 我 的 计算 机 上 MySQL 的 数据 目录 就 是 /usr/1ocal/var/mysql/ ， 你 用 你 的 计算 机 试 试 鹃 ~ 


8.3 数据 目录 的 结构 


MySQL 在 运行 过 程 中 都 会 产生 哪些 数据 呢 ” 当然 会 包含 我 们 创建 的 数据 库 、 表 、 视 图 和 触发 器 吧 啦 吧 啦 的 用 户 数 
据 ， 除 了 这 些 用 户 数据 ， 为 了 程序 更 好 的 运行 ， MySQL 也 会 创建 一 些 其 他 的 额外 数据 ， 我 们 接 下 来 细 细 的 品味 一 
下 这 个 数据 目录 下 的 内 容 。 

















8.3.1 数据 库 在 文件 系统 中 的 表示 


每 当 我 们 使 用 CREATE DATABASE 数据 库 名 语句 创建 一 个 数据 库 的 时 候 ， 在 文件 系统 上 实际 发 生 了 什么 呢 ? 其 实 
很 简单 ， 每 个 数据 库 都 对 应 数据 目录 下 的 一 个 子 目 录 ， 或 者 说 对 应 一 个 文件 夹 ， 我 们 每 当 我 们 新 建 一 个 数据 库 
时 ， MySQL 会 帮 有 我 们 做 这 两 件 事 儿 : 


1. 在 数据 目录 下 创建 一 个 和 数据 库 名 同名 的 子 目录 (或 者 说 是 文件 夹 ) 。 
2. 在 该 与 数据 库 名 同名 的 子 目 录 下 创建 一 个 名 为 db. opt 的 文件 ， 这 个 文件 中 包含 了 该 数据 库 的 各 种 属性 ， 比 
方 说 该 数据 库 的 字符 集 和 比较 规则 是 个 哈 。 


比方 说 我 们 查看 一 下 在 我 的 计算 机 上 当前 有 哪些 数据 库 : 























mysql> SHOW DATABASES ; 





Database 





information Schema 
charset demo db 
dahaizi 

mysql 
performance_schema 


Sys 





xiaohaizi 








7 rows in set (0.00 sec) 


可 以 看 到 在 我 的 计算 机 上 当前 有 7 个 数据 库 ， 其 中 charset_demo_db 、 dahaizi 和 xiaohaizi 数据 库 是 我 们 自 定 
义 的 ， 其 余 4 个 数据 库 是 属于 MySQL 自 带 的 系统 数据 库 。 我 们 再 看 一 下 我 的 计算 机 上 的 数据 目录 下 的 内 容 : 

















上 一 一 auto. cnf 

| 一 一 ca-key. pem 

上 一 一 ca.pen 

上 一 一 charset demo db 
| 一 client-cert.pem 

上 一 一 client-key. pem 

| 一 dahaizi 

| 一 一 ib buffer pool 

| 一 一 ib logfile0 

| 六 一 ib logfilel 

上 一 一 ibdatal 

| 一 一 ibtmpl 

| 一 一 mysql 

上 一 一 performance_schema 
上 一 一 private key. pem 

上 一 一 public key. pem 

上 一 一 server-cert. pem 

上 一 一 Server-key. pem 

上 一 一 sys 

| 一 xiaohaizideMacBook-Pro. local. err 
| 一 一 xiaohaizideMacBook-Pro. local. pid 


-一 一 xiaohaizi 


6 directories, 16 files 


当然 这 个 数据 目录 下 的 文件 和 子 目录 比较 多 哈 ， 但 是 如 果 仔细 看 的 话 ， 除 了 information_schema 这 个 系统 数据 
库 外 ， 其 他 的 数据 库 在 数据 目录 下 都 有 对 应 的 子 目录 。 这 个 information_schema 比较 特殊 ， 设 计 MySQL 的 大 
叔 们 对 它 的 实现 进行 了 特殊 对 待 ， 没 有 使 用 相应 的 数据 库 目 录 ， 我 们 忽略 它 的 存在 就 好 了 哈 . 





8.3.2 表 在 文件 系统 中 的 表示 
我 们 的 数据 其 实 都 是 以 记录 的 形式 插入 到 表 中 的 ， 每 个 表 的 信息 其 实 可 以 分 为 两 种 : 


1. 表 结构 的 定义 
2. 表 中 的 数据 





表 结 构 就 是 该 表 的 名 称 是 哈 ， 表 里 边 有 多 少 列 ， 每 个 列 的 数据 类 型 是 哈 ， 有 哈 约 束 条 件 和 索引 ， 用 的 是 哈 字 符 
集 和 比较 规则 吧 啦 吧 啦 的 各 种 信息 ， 这 些 信息 都 体现 在 了 我 们 的 建 表 语句 中 了 。 为 了 保存 这 些 信 息 ， InnoDB 和 
MyISAM 这 两 种 存储 引擎 都 在 数据 目录 下 对 应 的 数据 库 子 目录 下 创建 了 一 个 专门 用 于 描述 表 结 构 的 文件 ， 文 件 名 
是 这 样 : 


表 名 . frm 
比方 说 我 们 在 dahaizi 数据 库 下 创建 一 个 名 为 test 的 表 : 


mysql> USE dahaizi; 
Database changed 





mysql> CREATE TABLE test ( 
-> cl INT 
3 
Query OK, 0 rows affected (0. 03 sec) 


那 在 数据 库 dahaizi 对 应 的 子 目 录 下 就 会 创建 一 个 名 为 test. frm 的 用 于 描述 表 结 构 的 文件 。 值 得 注意 的 是 ， 这 
个 后 缀 名 为 .frm 是 以 二 进 制 格式 存储 的 ， 我 们 直接 打开 会 是 乱码 的 ~ 你 还 不 赶紧 在 你 的 计算 机 上 创建 个 表 试 试 ~ 


描述 表 结 构 的 文件 我 们 知道 怎么 存储 了 ， 那 表 中 的 数据 存 到 什么 文件 中 了 呢 ? 在 这 个 问题 上 ， 不同 的 存储 引擎 就 
产生 了 分 歧 了 ， 下 边 我 们 分 别 看 一 下 InnoDB 和 MyISAM 是 用 什么 文件 来 保存 表 中 数据 的 。 


8.3.2.1 InnoDB 是 如 何 存储 表 数 据 的 
我 们 前 边 重 点 路 归 过 InnoDB 的 一 些 实现 原理 ， 到 现在 为 止 我 们 应 该 熟悉 下 边 这 些 东 东 : 


InnoDB 其 实 是 使 用 页 为 基本 单位 来 管理 存储 空间 的 ， 默 认 的 页 大 小 为 16KB 。 

。 对 于 InnoDB 存储 引擎 来 说 ， 每 个 索引 都 对 应 着 一 棵 B+ 树 ， 该 B+ 树 的 每 个 节点 都 是 一 个 数据 页 ， 数 据 页 之 
间 不 必要 是 物理 连续 的 ， 因 为 数据 页 之 间 有 双向 链表 来 维护 着 这 些 页 的 顺序 。 
InnoDB 的 聚 簇 索 引 的 叶子 节点 存储 了 完整 的 用 户 记录 ， 也 就 是 所 谓 的 索引 即 数据 ， 数 据 即 索引 。 


为 了 更 好 的 管理 这 些 页 ， 设 计 InnoDB 的 大 叔 们 提出 了 一 个 表 空间 或 者 文件 空间 (英文 名 : table space 或 
者 file space ) 的 概念 ， 这 个 表 空间 是 一 个 抽象 的 概念 ， 它 可 以 对 应 文件 系统 上 一 个 或 多 个 真实 文件 (不同 表 
空间 对 应 的 文件 数量 可 能 不 同 ) 。 每 一 个 表 空间 可 以 被 划分 为 很 多 很 多 很 多 个 页 ， 我 们 的 表 数 据 就 存放 在 某 
个 表 空 间 下 的 某 些 页 里 。 设 计 InnoDB 的 大 叔 将 表 空间 划分 为 几 种 不 同 的 类 型 ， 我 们 一 个 一 个 看 一 下 。 





赤 纹 去 空 贸 (system tablespace) 


这 个 所 谓 的 系统 表 空 间 可 以 对 应 文件 系统 上 一 个 或 多 个 实际 的 文件 ， 默 认 情况 下 ， InnoDB 会 在 数据 目录 下 创 
建 一 个 名 为 ibdatal (在 你 的 数据 目录 下 找 找 看 有 木 有 ) 、 大 小 为 12M 的 文件 ， 这 个 文件 就 是 对 应 的 系统 表 空 
间 在 文件 系统 上 的 表示 。 怎 么 才 12M ”这 么 点 儿 还 没 插 多 少数 据 就 用 完了 ， 哈 哈 ， 那 是 因为 这 个 文件 是 所 谓 的 
自 扩展 文件 ， 也 就 是 当 不 够 用 的 时 候 它 会 自己 增加 文件 大 小 ~ 


当然 ， 如 果 你 想 让 系统 表 空间 对 应 文件 系统 上 多 个 实际 文件 ， 或 者 仅仅 觉得 原来 的 ibdatal 这 个 文件 名 难听 ， 那 
可 以 在 MySQL 启动 时 配置 对 应 的 文件 路 径 以 及 它们 的 大 小 ， 比 如 我 们 这 样 修改 一 下 配置 文件 : 














[server] 
innodb _ data file path=datal:512M;data2:512M:autoextend 


这 样 在 MySQL 启动 之 后 就 会 创建 这 两 个 512M 大 小 的 文件 作为 系统 表 空间 ， 其 中 的 autoextend 表明 这 两 个 文件 
如 果 不 够 用 会 自动 扩展 data2 文件 的 大 小 。 


我 们 也 可 以 把 系统 表 空 间 对 应 的 文件 路 径 不 配置 到 数据 目录 下 ， 甚 至 可 以 配置 到 单独 的 磁盘 分 区 上 ， 涉 及 到 的 
启动 参数 就 是 innodb_data_file path 和 innodb_data_home_dir ， 有 具体 的 配置 逻辑 挺 绕 的 ， 我 们 这 就 不 多 路 叫 
了 . 知 讶 改 哪个 参数 可 以 修改 系统 表 空 间 对 应 的 文件 . 有 需要 的 时 候 惠 官方 文档 里 一 查 就 好 了 _ 





YA 人 Ar NN 一 II 一 一 ~ 一 "II ~ Ts Pe nd 一 一 一 St 


需要 注意 的 一 点 是 ， 在 一 个 MySQL 服 务 器 中 ， 系统 表 空 间 只 有 一 份 。 从 MySQL5.5.7 至 JMySQL5.6.6 之 间 的 各 个 版 
本 中 ， 我 们 表 中 的 数据 都 会 被 默认 存储 到 这 个 系统 汞 守 / 问 


白 立 汞 客 / 却 file-per-table tablespace) 


在 MySQL5.6.6 以 及 之 后 的 版 本 中 ， InnoDB 并 不 会 默认 的 把 各 个 表 的 数据 存储 到 系统 表 空间 中 ， 而 是 为 每 一 个 表 
建立 一 个 独立 表 空 间 ， 也 就 是 说 我 们 创建 了 多 少 个 表 ， 就 有 多 少 个 独立 表 空 间 。 使 用 独立 表 空 间 来 存储 表 数 据 
的 话 ， 会 在 该 表 所 属 数据 库 对 应 的 子 目录 下 创建 一 个 表示 该 独立 表 空间 的 文件 ， 文 件 名 和 表 名 相同 ， 只 不 过 添 
加 了 一 个 . ibd 的 扩展 名 而 已 ， 所 以 完整 的 文件 名 称 长 这 样 : 


表 名 . ibd 


比方 说 假如 我 们 使 用 了 独立 表 空间 去 存储 xiaohaizi 数据 库 下 的 test 表 的 话 ， 那 么 在 该 表 所 在 数据 库 对 应 的 
xiaohaizi 目录 下 会 为 test 表 创 建 这 两 个 文件 : 








test. frm 
test. ibd 


test. ibd 文件 就 用 来 存储 test 表 中 的 数据 和 索引 。 当 然 我 们 也 可 以 自己 指定 使 用 系统 表 空 间 还 是 独立 
空间 来 存储 数据 ， 这 个 功能 由 启动 参数 innodb_ file _ per _table 控制 ， 比 如 说 我 们 想 刻意 将 表 数 据 都 存储 到 
s 间 时 ， 可 以 在 启动 MySQL 服务 器 的 时 候 这 样 配置 : 











| 





[server|] 
innodb file per table=0 


当 innodb file per table 的 值 为 0 时 ， 代 表 使 用 系统 表 空 间 ; 当 innodb file per table 的 值 为 1 时 ,代表 
使 用 独立 表 空 间 。 不 过 innodb_file_per_table 参数 只 对 新 建 的 表 起 作用 ， 对 于 已 经 分 配 了 表 空 间 的 表 并 不 起 作 
用 。 如 果 我 们 想 把 已 经 存在 系统 表 空 间 中 的 表 转 移 到 独立 表 空 间 ， 可 以 使 用 下 边 的 语法 : 


ALTER TABLE 表 名 TABLESPACE [=] innodb file per table; 


或 者 把 已 经 存在 独立 表 空 间 的 表 转 移 到 系统 表 空间 ， 可 以 使 用 下 边 的 语法 : 


ALTER TABLE 表 名 TABLESPACE [=] innodb systenm; 


其 中 中 括号 扩 起 来 的 = 可 有 可 无 ， 比 方 说 我 们 想 把 test 表 从 独立 表 空 间 移动 到 系统 表 空 间 ， 可 以 这 么 


ALTER TABLE test TABLESPACE innodb_system; 


和 丰 抄 类 型 入 志 窑 杀 


随 着 MySQL 的 发 展 ， 除 了 上 述 两 种 老牌 表 空间 之 外 ， 现 在 还 新 提出 了 一 些 不 同类 型 的 表 空 间 ， 比 如 通用 表 空 间 
(general tablespace) 、undo 表 空间 (undo tablespace) 、 人 临时 表 空 间 (temporary tablespace) 吧 啦 吧 啦 
的 ， 具 体 情况 我 们 就 不 细 踢 明 了 ， 等 用 到 的 时 候 再 提 。 


8.3.2.2 MyISAM 是 如 何 存储 表 数 据 的 


好 了 ， 路 叫 完了 InnoDB 的 系统 表 空 间 和 独立 表 空 间 ， 现 在 轮 到 MyISAM 了 。 我 们 知道 不 像 InnoDB 的 索引 和 数据 
是 一 个 东 东 ， 在 MyISAM 中 的 索引 全 部 都 是 二 级 索引 ， 该 存储 引擎 的 数据 和 索引 是 分 开 存放 的 。 所 以 在 文件 系统 
中 也 是 使 用 不 同 的 文件 来 存储 数据 文件 和 索引 文件 。 而 且 和 InnoDB 不 同 的 是 ， MyISAM 并 没有 什么 所 谓 的 表 空 
间 一 说 ， 表 数据 都 存放 到 对 应 的 数据 库 子 目录 下 。 假 如 test 表 使 用 MyISAM 存储 引擎 的话 ， 那 么 在 它 所 在 数据 
库 对 应 的 xiaohaizi 目录 下 会 为 test 表 创 建 这 三 个 文件 : 





test. frm 
test. MYD 
test. MYI 


其 中 test. MYD 代表 表 的 数据 文件 ， 也 就 是 我 们 插入 的 用 户 记 录 ; ”test. MYI 代表 表 的 索引 文件 ， 我 们 为 该 表 创 建 
的 索引 都 会 放 到 这 个 文件 中 。 


8.3.3 视图 在 文件 系统 中 的 表示 
我 们 知道 MySQL 中 的 视图 其 实 是 虚拟 的 表 ， 也 就 是 某 个 查询 语句 的 一 个 别名 而 已 ， 所 以 在 存储 视图 的 时 候 是 不 


需要 存储 真实 的 数据 的 ， 只 需要 把 它 的 结构 存储 起 来 就 行 了 。 和 表 一 样 ， 描 述 视图 结构 的 文件 也 会 被 存储 到 所 
属 数 据 库 对 应 的 子 目录 下 边 ， 只 会 存储 一 个 视图 名 . frm 的 文件 。 





8.3.4 其 他 的 文件 


除了 我 们 上 边 说 的 这 些 用 户 自 己 存储 的 数据 以 外 ， 数据 目录 下 还 包括 为 了 更 好 运行 程序 的 一 些 额 外 文件 ， 主 要 
包括 这 几 种 类 型 的 文件 : 


。 服务 器 进程 文件 。 


我 们 知道 每 运行 一 个 MySQL 服务 器 程序 ， 都 意味 着 启动 一 个 进程 。 MySQL 服务 器 会 把 自己 的 进程 ID 写 入 到 一 
个 文件 中 。 
。 服务 器 日 志文 件 。 


在 服务 器 运行 过 程 中 ， 会 产生 各 种 各 样 的 日 志 ， 比 如 常规 的 查询 日 志 、 错 误 日 志 、 二 进 制 日 志 、redo 日 志 吧 
啦 吧 啦 各 种 日 志 ， 这 些 日 志 各 有 各 的 用 途 ， 我 们 之 后 会 重点 啼 归 各 种 日 志 的 用 途 ， 现 在 先 了 解 一 下 就 可 以 
了 。 

。 默认 /自动 生成 的 SSL 和 RSA 证 书 和 密 钥 文 件 。 


主要 是 为 了 客户 端 和 服务 器 安全 通信 而 创建 的 一 些 文件 ， 大 家 看 不 懂 可 以 忽略 ~ 


8.4 文件 系统 对 数据 库 的 影响 


因为 MySQL 的 数据 都 是 存在 文件 系统 中 的 ， 就 不 得 不 受到 文件 系统 的 一 些 制约 ， 这 在 数据 库 和 表 的 命名 、 表 的 大 
小 和 性 能 方面 体现 的 比较 明显 ， 比 如 下 边 这 些 方面 : 


。 数据 库 名 称 和 表 名 称 不 得 超过 文件 系统 所 允许 的 最 大 长 度 。 


每 个 数据 库 都 对 应 数据 目录 的 一 个 子 目 录 ， 数据 库 名 称 就 是 这 个 子 目 录 的 名 称 ; 每 个 表 都 会 在 数据 库 子 目 
录 下 产生 一 个 和 表 名 同名 的 . frm 文件 ， 如 果 是 InnoDB 的 独立 表 空 间或 者 使 用 MyISAM 引擎 还 会 有 别 的 文件 
的 名 称 与 表 名 一 致 。 这 些 目 录 或 文件 名 的 长 度 都 受 限于 文件 系统 所 允许 的 长 度 ~ 

。 特殊 字符 的 问题 


为 了 避免 因为 数据 库 名 和 表 名 出 现 某 些 特殊 字符 而 造成 文件 系统 不 支持 的 情况 ， MySQL 会 把 数据 库 名 和 表 名 
中 所 有 除数 字 和 拉丁 字母 以 外 的 所 有 字符 在 文件 名 里 都 映射 成 @+ 编 码 值 的 形式 作为 文件 名 。 比 方 说 我 们 创 
建 的 表 的 名 称 为 ”test? ， 由 于 ? 不 属于 数字 或 者 拉丁 字母 ， 所 以 会 被 映射 成 编码 值 ， 所 以 这 个 表 对 应 
的 . frm 文件 的 名 称 就 变 成 了 test@003f. frm 。 

。 文件 长 度 受 文 件 系统 最 大 长 度 限 制 


对 于 InnoDB 的 独立 表 空 间 来 说 ， 每 个 表 的 数据 都 会 被 存储 到 一 个 与 表 名 同名 的 . ibd 文件 中 ; 对 于 MyISAM 
存储 引擎 来 说 ， 数 据 和 索引 会 分 别 存放 到 与 表 同 名 的 .MYD 和 . MYI 文件 中 。 这 些 文件 会 随 着 表 中 记录 的 增加 
而 增 大 ， 它 们 的 大 小 受 限于 文件 系统 支持 的 最 大 文件 大 小 。 


8.5 MySQL 系 统 数据 库 简 介 


我 们 前 边 提 到 了 MySQL 的 几 个 系统 数据 库 ， 这 几 个 数据 库 包含 了 MySQL 服 务 器 运行 过 程 中 所 需 的 一 些 信息 以 及 
一 些 运行 状态 信息 ， 我 们 现在 稍微 了 解 一 下 。 



































。 mysql 


这 个 数据 库 贼 核心 ， 它 存储 了 MySQL 的 用 户 账户 和 权限 信息 ， 一 些 存储 过 程 、 事 件 的 定义 信息 ， 一 些 运 行 过 
程 中 产生 的 日 志 信息 ， 一 些 帮助 信息 以 及 时 区 信息 等 。 


information Schema 


这 个 数据 库 保存 着 MySQL 服 务 器 维护 的 所 有 其 他 数据 库 的 信息 ， 比 如 有 哪些 表 、 哪 些 视图 、 哪 些 触发 器 、 哪 
些 列 、 哪 些 索 引 吧 啦 吧 啦 。 这 些 信息 并 不 是 真实 的 用 户 数据 ， 而 是 一 些 描述 性 信息 ， 有 时 候 也 称 之 为 元 数 
据 。 


performance_ schema 


这 个 数据 库 里 主要 保存 MySQL 服 务 器 运行 过 程 中 的 一 些 状态 信息 ， 算 是 对 MySQL 服 务 器 的 一 个 性 能 监控 。 
包括 统计 最 近 执 行 了 哪些 语句 ， 在 执行 过 程 的 每 个 阶段 都 花费 了 多 长 时 间 ， 内 存 的 使 用 情况 等 等 信息 。 


。 sys 


这 个 数据 库 主 要 是 通过 视图 的 形式 把 information schema 和 performance schema 结合 起 来 ， 让 程序 员 可 以 
更 方便 的 了 解 MySQL 服 务 器 的 一 些 性 能 信息 。 


哈 ? 这 四 个 系统 数据 库 这 就 介绍 完了 ? 是 的 ,我 们 的 标题 写 的 就 是 简介 嘛 ! 如 果真 的 要 路 嚼 下 这 几 个 系统 库 
的 使 用 ， 那 怕 是 又 要 写 一 本 书 了 .… 这 里 只 是 因为 介绍 数据 目录 里 遇 到 了 ， 为 了 内 容 的 完整 性 跟 大 家 提 一 下 ， 具 体 
如 何 使 用 还 是 要 参照 文档 ~ 


9 第 9 章 存放 页 面 的 大 池子 -InnoDB 的 表 空间 


标签 : MySQL 是 怎样 运行 的 


通过 前 边 儿 的 内 容 大 家 知道 ， 表 空 间 是 一 个 抽象 的 概念 ， 对 于 系统 表 空间 来 说 ， 对 应 着 文件 系统 中 一 个 或 多 个 
实际 文件 ; 对 于 每 个 独立 表 空间 来 说 ， 对 应 着 文件 系统 中 一 个 名 为 表 名 . ibd 的 实际 文件 。 大 家 可 以 把 表 空 间 想 
象 成 被 切 分 为 许 许 多 多 个 页 的 池子 ， 当 我 们 想 为 某 个 表 插入 一 条 记录 的 时 候 ， 就 从 池子 中 捞 出 一 个 对 应 的 页 来 
把 数据 写 进 去 。 本 章 内 容 会 深入 到 表 空 间 的 各 个 细节 中 ， 带 领 大 家 在 InnoDB 存储 结构 的 池子 中 畅游 。 由 于 本 章 
中 将 会 涉及 比较 多 的 概念 ， 虽 然 这 些 概念 都 不 难 ， 但 是 却 相互 依赖 ， 所 以 奉劝 大 家 在 看 的 时 候 : 


。 不 要 跳 着 看 ! 
。 不 要 跳 着 看 ! 
。 不 要 跳 着 看 ! 


9.1 回忆 一 些 旧 知 识 


9.1.1 页 面 类 型 


再 一 次 强调 ，InnoDB 是 以 页 为 单位 管理 存储 空间 的 ， 我 们 的 聚 篮 索 引 (也 就 是 完整 的 表 数 据 ) 和 其 他 的 二 级 索引 
都 是 以 B+ 树 的 形式 保存 到 表 空 间 的 ， 而 B+ 树 的 节点 就 是 数据 页 。 我 们 前 边 说 过 ， 这 个 数据 页 的 类 型 名 其 实 

是 : FIL_PAGE_INDEX ， 除 了 这 种 存放 索引 数据 的 页 面 类 型 之 外 ，InnoDB 也 为 了 不 同 的 目的 设计 了 若干 种 不 同类 
型 的 页 面 ， 为 了 唤醒 大 家 的 记忆 ， 我 们 再 一 次 把 各 种 常用 的 页 面 类 型 提出 来 : 


类 型 名 称 十 六 进 制 描述 
FIL PAGE TYPE ALLOCATED € Ox0000 最 新 分 配 ， 还 没 使 用 
FIL PAGE UNDO_LOG 0x0002 Undo 日 志 页 
FIL PAGE INODE 0x0003 段 信息 节点 


FIL PAGE IBUF FREE LIST Ox0004 Insert Buffer 空 闲 列表 


类 型 名 称 十 六 进 制 描述 


FIL PAGE IBUF_BITMAP 0x0005 Insert Buffer 位 图 
FIL_ PAGE TYPE SYS 0x0006 系统 页 
FIL PAGE TYPE TRX SYS 0x0007 事务 系统 数据 
FIL PAGE TYPE FSP HDR € 0x0008 表 空 间 头 部 信息 
FIL PAGE TYPE _XDES 0x0009 扩展 描述 页 
FIL PAGE TYPE BLOB 0x000A BLOB 页 
FIL_PAGE_INDEX 0x45BF ”索引 页 ， 也 就 是 我 们 所 说 的 数据 页 


因为 页 面 类 型 前 边 都 有 个 FIL_PAGE 或 者 FIL_PAGE_TYPE 的 前 弘 ， 为 简便 起 见 我 们 后 边 噶 嘱 页 面 类 型 的 时 候 就 把 
这 些 前 缀 省 略 掉 了 ， 比 方 说 FIL PAGE TYPE ALLOCATED 类 型 称 为 ALLOCATED 类 型 ， FIL PAGE INDEX 类 型 称 为 
INDEX 类 型 。 


9.1.2 页 面 通 用 部 分 


我 们 前 边 说 过 数据 页 ， 也 就 是 INDEX 类 型 的 页 由 7 个 部 分 组 成 ， 其 中 的 两 个 部 分 是 所 有 类 型 的 页 面 都 通用 的 。 当 
然 我 不 能 寄 希 望 于 你 把 我 说 的 话 都 记 住 ， 所 以 在 这 里 重新 强调 一 遍 ， 任 何 类 型 的 页 面 都 有 下 边 这 种 通用 的 结构 : 


通用 页 结构 示意 图 


[4 


38 字 节 File Header 


不 同类 型 的 页 面 的 这 个 


总 共 是 16KB 一 16338 字 节 区 域 的 作用 是 不 同 的 


8 字 节 File Trailer 


16 KB 





从 上 图 中 可 以 看 出 ， 任 何 类 型 的 页 都 会 包含 这 两 个 部 分 : 


。 File Header : 记录 页 面 的 一 些 通用 信息 
。 File Trailer : 校 验 页 是 否 完整 ， 保 证 从 内 存 到 磁盘 刷新 时 内 容 的 一 致 性 。 


对 于 File Trailer 我 们 不 再 做 过 多 强调 ， 全 部 忘记 了 的 话 可 以 到 将 数据 页 的 那 一 章 回顾 一 下 。 我 们 这 里 再 强调 
一 遍 File Header 的 各 个 组 成 部 分 : 


和 8 拓 


FIL_PAGE_SPACE_OR_CHKSUM 页 的 校 验 和 (checksum 值 ) 


心 


页 号 
上 一 个 页 的 页 号 
下 一 个 页 的 页 号 


页 面 被 最 后 修改 时 对 应 的 日 志 序 列 位 置 (英文 名 是 : Log Sequence 


FIL_PAGE OFFSET 


心 


FIL PAGE PREV 


导 和 村 性 和 导 
于 寺 寺 和 寺 


FIL PAGE NEXT 


心 





FIL PAGE LSN 8 字 节 Number) 
FIL PAGE TYPE 2 字 节 该 页 的 类 型 
FIL_PAGE FILE FLUSH LSN 8 字 节 仅 在 系统 表 空间 的 一 个 页 中 定义 ， 代 表 文件 至 少 被 刷新 到 了 对 应 的 LSN 值 
FIL PAGE ARCH LOG NO OR SPACE ID 4 字 节 页 属于 哪个 表 空间 





现在 除了 名 称 里 边 儿 带 有 LSN 的 两 个 字段 大 家 可 能 看 不 懂 以 外 ， 其 他 的 字段 肯定 都 是 倍 儿 熟 了 ， 不 过 我 们 仍 要 强 
调 这 么 几 点 : 


。 表 空间 中 的 每 一 个 页 都 对 应 着 一 个 页 号 ， 也 就 是 FIL_PAGE_OFFSET ， 这 个 页 号 由 4 个 字 节 组 成 ， 也 就 是 32 个 
比特 位 ， 所 以 一 个 表 空 间 最 多 可 以 拥有 2 个 页 ， 如 果 按 照 页 的 默认 大 小 16KB 来 算 ， 一 个 表 空间 最 多 支持 
64TB 的 数据 。 表 空间 的 第 一 个 页 的 页 号 为 0， 之 后 的 页 号 分 别 是 1，2，3.. 依 此 类 扒 

某 些 类 型 的 页 可 以 组 成 链表 ， 链 表 中 的 页 可 以 不 按照 物理 顺序 存储 ， 而 是 根据 FIL_PAGE_PREV 和 
FIL_PAGE_NEXT 来 存储 上 一 个 页 和 下 一 个 页 的 页 号 。 需 要 注意 的 是 ， 这 两 个 字段 主要 是 为 了 INDEX 类 型 的 
页 ， 也 就 是 我 们 之 前 一 直 说 的 数据 页 建立 B+ 树 后 ， 为 每 层 节点 建立 双向 链表 用 的 ， 一 般 类 型 的 页 是 不 使 用 
这 两 个 字段 的 。 

每 个 页 的 类 型 由 FIL_PAGE_TYPE 表示 ， 比 如 像 数据 页 的 该 字段 的 值 就 是 0x45BF ， 我 们 后 边 会 介绍 各 种 不 同 
类 型 的 页 ， 不 同类 型 的 页 在 该 字段 上 的 值 是 不 同 的 。 


9.2 独立 表 空 间 结构 


我 们 知道 InnoDB 支持 许多 种 类 型 的 表 空间 ， 本 章 重点 关注 独立 表 空 间 和 系统 表 空间 的 结构 。 它 们 的 结构 比较 相 
似 , 但 是 由 于 系统 表 空 间 中 额外 包含 了 一 些 关于 整个 系统 的 信息 ， 所 以 我 们 先 挑 简单 一 点 的 独立 表 空 间 来 踪 忠 ， 
稍 后 再 说 系统 表 空 间 的 结构 。 


9.2.1 区 (extent) 的 概念 

表 空 间 中 的 页 实在 是 太 多 了 ， 为 了 更 好 的 管理 这 些 页 面 ， 设 计 InnoDB 的 大 叔 们 提出 了 区 (英文 名 : extent ) 
的 概念 。 对 于 16KB 的 页 来 说， 连续 的 64 个 页 就 是 一 个 区 ， 也 就 是 说 一 个 区 默认 占用 1MB 空 间 大 小 。 不 论 是 系统 
表 空 间 还 是 独立 表 空 间 ， 都 可 以 看 成 是 由 若干 个 区 组 成 的 ， 每 256 个 区 被 划分 成 一 组 。 画 个 图 表示 就 是 这 样 : 





表 空 间 结 构 








extent 0 (1MB) 
1 MB 


extent 1 (1MB) 
2 MB 
extent 2 (1MB) 
3MB 
255 MB Nd 
extent 255 (1MB) 
extent 256 (1MB) 


257 MB 
258 MB 
区 i 
S11 MB 
extent 511 (1MB) 


extent 512 (1MB) 


extent 513 (1MB) 


每 256 个 extent 为 一 组 


256 MB 


每 256 个 extent 为 一 组 


S12 MB 
S13 MB 


5164 MB 


其 中 extent 0 ~ extent 255 这 256 个 区 算是 第 一 个 组 ， extent 256 ~ extent 511 这 256 个 区 算是 第 二 个 
组 ， extent 512 ~ extent 767 这 256 个 区 算是 第 三 个 组 (上 图 中 并 未 画 全 第 三 个 组 全 部 的 区 ， 请 自行 脑 补 ) ， 
依 此 类 推 可 以 划分 更 多 的 组 。 这 些 组 的 头 几 个 页 面 的 类 型 都 是 类 似 的 ， 就 像 这 样 : 


extent 0 的 各 个 页 


FSP_HDR (16kB) 
16 KB 


IBUF_BITMAP (16KB) 


32 KB 

INODE (16KB) 
站 [人 | 
1 MB 


extent 256 的 各 个 页 


人 XDES (16KB) 


256 MB+ 16KB 
IBUF_BITMAP (16KB) 


a be 
257 MB 













extent 512 的 各 个 页 


S12M8 
XDES (16KB) 
S12 MB+ 16KB 


IBUF_BITMAP (16KB 


S12 MB+ 32K5 
六 和 生生 和 
S13MBS 


。 第 一 个 组 最 开始 的 3 个 页 面 的 类 型 是 固定 的 ， 也 就 是 说 extent 0 这 个 区 最 开始 的 3 个 页 面 的 类 型 是 固定 的 ， 
分 别 是 : 
" FSP_HDR 类 型 : 这 个 类 型 的 页 面 是 用 来 登记 整个 表 空间 的 一 些 整体 属性 以 及 本 组 所 有 的 区 ， 也 就 是 
extent 0 ~ extent 255 这 256 个 区 的 属性 ， 稍 后 详细 啼 明 。 需 要 注意 的 一 点 是 ， 整 个 表 空 间 只 有 一 
个 FSP_HDR 类 型 的 页 面 。 
" IBUF_BITMAP 类 型 : 这 个 类 型 的 页 面 是 存储 本 组 所 有 的 区 的 所 有 页 面 关 于 INSERT BUFFER 的 信息 。 当 
然 ， 你 现在 不 用 知道 喻 是 个 INSERT BUFFER ， 后 边 会 详细 说 到 你 吐 。 
s。 INODE 类 型 : 这 个 类 型 的 页 面 存 储 了 许多 称 为 INODE 的 数据 结构 ， 还 是 那 句 话 ， 现 在 你 不 需要 知道 啥 是 
个 INODE ， 后 边 儿 会 说 到 你 吐 。 
。 其 余 各 组 最 开始 的 2 个 页 面 的 类 型 是 固定 的 ， 也 就 是 说 extent 256 、 extent 512 这 些 区 最 开始 的 2 个 页 面 
的 类 型 是 固定 的 ， 分 别 是 : 
" XDES 类 型 : 全 称 是 extent descriptor ， 用 来 登记 本 组 256 个 区 的 属性 ， 也 就 是 说 对 于 在 extent 256 
区 中 的 该 类 型 页 面 存 储 的 就 是 extent 256 ~ extent 511 这 些 区 的 属性 ， 对 于 在 extent 512 区 中 的 该 
类 型 页 面 存 储 的 就 是 extent 512 ~ extent 767 这 些 区 的 属性 。 上 边 介绍 的 FSP_HDR 类 型 的 页 面 其 实 
和 XDES 类 型 的 页 面 的 作用 类 似 ， 只 不 过 FSP_HDR 类 型 的 页 面 还 会 额外 存储 一 些 表 空间 的 属性 。 
" IBUF_BITMAP 类 型 : 上 边 介 绍 过 了 。 


从 上 图 中 我 们 能 得 到 如 下 信息 : 


好 了 ， 宏 观 的 结构 介绍 完了 ， 里 边 儿 的 名 词 大 家 也 不 用 记 清 楚 ， 只 要 大 致 记得 : 表 空间 被 划分 为 许多 连续 的 
区 ， 每 个 区 默认 由 64 个 页 组 成 ， 每 256 个 区 划分 为 一 组 ， 每 个 组 的 最 开始 的 几 个 页 面 类 型 是 固定 的 就 好 了 。 


9.2.2 段 (segment) 的 概念 


为 喻 好 端 端的 提出 一 个 区 ( extent ) 的 概念 呢 ? 我 们 以 前 分 析 问 题 的 套路 都 是 这 样 的 : 表 中 的 记录 存储 到 页 里 
边 儿 ， 然 后 页 作为 节点 组 成 B+ 树 ， 这 个 B+ 树 就 是 索引 ， 然 后 吧 啦 吧 啦 一 堆 聚 簇 索 引 和 二 级 索引 的 区 别 。 这 套路 
也 没 哈 不 溉 的 呀 ~ 


是 的 ， 如 果 我 们 表 中 数据 量 很 少 的 话 ， 比 如 说 你 的 表 中 只 有 几 十 条 、 几 百 条 数据 的 话 ， 的 确 用 不 到 区 的 概念 ， 
因为 简单 的 几 个 页 就 能 把 对 应 的 数据 存 储 起 来 ， 但 是 你 架 不 住 表 里 的 记录 越 来 越 多 呀 。 


? ? 险 ? ? 表 里 的 记录 多 了 又 怎样 ? B+ 树 的 每 一 层 中 的 页 都 会 形成 一 个 双向 链表 呀 ， File Header 中 的 
FIL_PAGE_PREV 和 FIL_PAGE_NEXT 字段 不 就 是 为 了 形成 双向 链表 设置 的 么 ? 


是 的 是 的 ， 您 说 的 都 对 ， 从 理论 上 说 ,不 引入 区 的 概念 只 使 用 页 的 概念 对 存储 引 警 的 运行 并 没 啥 影响 ， 但 是 我 
们 来 考虑 一 下 下 边 这 个 场景 : 


。 我 们 每 向 表 中 插入 一 条 记录 ， 本 质 上 就 是 向 该 表 的 聚 艇 索引 以 及 所 有 二 级 索引 代表 的 B+ 树 的 节点 中 插入 数 
据 。 而 B+ 树 的 每 一 层 中 的 页 都 会 形成 一 个 双向 链表 ， 如 果 是 以 页 为 单位 来 分 配 人 存储 空间 的 话 ， 双 向 链表 相 
邻 的 两 个 页 之 间 的 物理 位 置 可 能 离 得 非常 远 。 我 们 介绍 B+ 树 索引 的 适用 场景 的 时 候 特 别提 到 范围 查询 只 需 
要 定位 到 最 左边 的 记录 和 最 右边 的 记录 ， 然 后 沿 着 双向 链表 一 直 扫描 就 可 以 了 ， 而 如 果 链表 中 相 邻 的 两 个 页 
物理 位 置 离 得 非常 远 ， 就 是 所 谓 的 随机 I/0 。 再 一 次 强调 ,磁盘 的 速度 和 内 存 的 速度 差 了 好 几 个 数量 级 ， 随 
机 I/0 是 非常 慢 的 ， 所 以 我 们 应 该 尽量 让 链表 中 相 邻 的 页 的 物理 位 置 也 相 邻 ， 这 样 进行 范围 查询 的 时 候 才 可 
以 使 用 所 谓 的 顺序 1/0 。 


所 以 ， 所 以 ， 所 以 才 引 入 了 区 ( extent ) 的 概念 ， 一 个 区 就 是 在 物理 位 置 上 连续 的 64 个 页 。 在 表 中 数据 量 大 
的 时 候 ， 为 某 个 索引 分 配 空间 的 时 候 就 不 再 按照 页 为 单位 分 配 了 ， 而 是 按照 区 为 单位 分 配 ， 甚 至 在 表 中 的 数据 














区 ) ， 但 是 从 性 能 角度 看 ， 可 以 消除 很 多 的 随机 I/0 ， 功 大 于 过 嘛 ! 


事情 到 这 里 就 结束 了 么 ” 太 天 真 了 ， 我 们 提 到 的 范围 查询 ， 其 实 是 对 B+ 树叶 子 节点 中 的 记录 进行 顺序 扫描 ， 而 

如 果 不 区 分 叶子 节点 和 非 叶子 节点 ， 统 统 把 节点 代表 的 页 面 放 到 申请 到 的 区 中 的 话 ， 进 行 范围 扫描 的 效果 就 大 打 
折扣 了 。 所 以 设计 InnoDB 的 大 叔 们 对 B+ 树 的 叶子 节点 和 非 叶子 节点 进行 了 区 别 对 待 ， 也 就 是 说 叶子 节点 有 自己 
独 有 的 区 ， 非 叶子 节点 也 有 自己 独 有 的 区 。 存 放 叶 子 节点 的 区 的 集合 就 算是 一 个 段 ( segment ) ， 和 存放 非 叶 
子 节点 的 区 的 集合 也 算是 一 个 段 。 也 就 是 说 一 个 索引 会 生成 2 个 段 ， 一 个 叶子 节点 段 ， 一 个 非 叶子 节点 段 。 


默认 情况 下 一 个 使 用 InnoDB 存储 引擎 的 表 只 有 一 个 聚 簇 索 引 ， 一 个 索引 会 生成 2 个 段 ， 而 段 是 以 区 为 单位 申请 存 
储 空间 的 ， 一 个 区 默认 占用 1M 人 存储 空间 ， 所 以 默认 情况 下 一 个 只 存 了 几 条 记录 的 小 表 也 需要 2M 的 存储 空间 么 ? 
以 后 每 次 添加 一 个 索引 都 要 多 申请 2M 的 存储 空间 么 ? 这 对 于 存储 记录 比较 少 的 表 简 直 是 天 大 的 浪费 。 设 计 
InnoDB 的 大 叔 们 都 挺 节俭 的 ， 当 然 也 考虑 到 了 这 种 情况 。 这 个 问题 的 症结 在 于 到 现在 为 止 我 们 介绍 的 区 都 是 非 
常 纯粹 的 ， 也 就 是 一 个 区 被 整个 分 配给 某 一 个 段 ， 或 者 说 区 中 的 所 有 页 面 都 是 为 了 存储 同一 个 段 的 数据 而 存在 
的 ， 即 使 段 的 数据 填 不 满 区 中 所 有 的 页 面 ， 那 余下 的 页 面 也 不 能 挪 作 他 用 。 现 在 为 了 考虑 以 完整 的 区 为 单位 分 配 
给 某 个 段 对 于 数据 量 较 小 的 表 太 浪费 存储 空间 的 这 种 情况 ， 设 计 InnoDB 的 大 叔 们 提出 了 一 个 碎片 (fragment) 
区 的 概念 ， 也 就 是 在 一 个 碎片 区 中 ， 并 不 是 所 有 的 页 都 是 为 了 存储 同一 个 段 的 数据 而 存在 的 ， 而 是 碎片 区 中 的 页 
可 以 用 于 不 同 的 目的 ， 比 如 有 些 页 用 于 段 A， 有 些 页 用 于 段 8， 有 些 页 甚至 哪个 段 都 不 属于 。 碎 片区 直属 于 表 空 
间 ， 并 不 属于 任何 一 个 段 。 所 以 此 后 为 某 个 段 分 配 存储 空间 的 策略 是 这 样 的 : 


。 在 刚 开始 向 表 中 插入 数据 的 时 候 ， 段 是 从 某 个 碎片 区 以 单个 页 面 为 单位 来 分 配 人 存储 空间 的 。 
。 当 某 个 段 已 经 占用 了 32 个 碎片 区 页 面 之 后 ， 就 会 以 完整 的 区 为 单位 来 分 配 人 存储 空间 。 


所 以 现在 段 不 能 仪 定义 为 是 某 些 区 的 集合 ， 更 精确 的 应 该 是 某 些 零 散 的 页 面 以 及 一 些 完整 的 区 的 集合 。 除 了 索引 
的 叶子 节点 段 和 非 叶子 节点 段 之 外 ， InnoDB 中 还 有 为 存储 一 些 特殊 的 数据 而 定义 的 段 ， 比 如 回 滚 段 ， 当 然 我 们 
现在 并 不 关心 别 的 类 型 的 段 ， 现 在 只 需要 知道 段 是 一 些 零散 的 页 面 以 及 一 些 完整 的 区 的 集合 就 好 了 。 








9.2.3 区 的 分 类 
通过 上 边 一 通 啼 轨 ， 大 家 知道 了 表 空 间 的 是 由 若干 个 区 组 成 的 ， 这 些 区 大 体 上 可 以 分 为 4 种 类 型 : 
。 空闲 的 区 : 现在 还 没有 用 到 这 个 区 中 的 任何 页 面 。 


。 有 剩余 空间 的 碎片 区 : 表示 碎片 区 中 还 有 可 用 的 页 面 。 

。 没有 剩余 空间 的 碎片 区 : 表示 碎片 区 中 的 所 有 页 面 都 被 使 用 ， 没 有 空闲 页 面 。 

。 附属 于 某 个 段 的 区 。 每 一 个 索引 都 可 以 分 为 叶子 节点 段 和 非 叶子 节点 段 ， 除 此 之 外 InnoDB 还 会 另外 定义 一 些 
特殊 作用 的 上段， 在 这 些 段 中 的 数据 量 很 大 时 将 使 用 区 来 作为 基本 的 分 配 单位 。 


这 4 种 类 型 的 区 也 可 以 被 称 为 区 的 4 种 状态 ( State ) ， 设 计 InnoDB 的 大 叔 们 为 这 4 种 状态 的 区 定义 了 特定 的 名 
词 儿 : 
状态 名 含义 
FREE 空闲 的 区 
FREE_FRAG ”有 剩余 空间 的 碎片 区 
FULL_FRAG ”没有 剩余 空间 的 碎片 区 
FSEG 附属 于 某 个 段 的 区 

需要 再 次 强调 一 遍 的 是 ， 处 于 FREE 、 FREE _FRAG 以 及 FULL_FRAG 这 三 种 状态 的 区 都 是 独立 的 ， 算 是 直属 于 表 空 
间 ; 而 处 于 FSEG 状态 的 区 是 附属 于 某 个 段 的 。 


小 贴 士 : 

如 果 把 表 空 间 比 作 是 一 个 集团 军 ， 段 就 相当 于 师 ， 区 就 相当 于 团 。 一 般 的 团 都 是 隶属 于 某 个 师 的 ， 就 像 
是 处 于 ` FSEG 的 区 全 都 隶属 于 某 个 段 ， 而 处 于 "FREE 、 FREE FRAG 以 及 ` FULL FRAG 这 三 种 状态 的 区 却 
直接 隶属 于 表 空 间 ， 就 像 独立 团 直接 听命 于 军 部 一 样 。 

















为 了 方便 管理 这 些 区 ， 设 计 InnoDB 的 大 叔 设计 了 一 个 称 为 YDES Entry 的 结构 (全 称 就 是 Extent Descriptor 
Entry) ， 每 一 个 区 都 对 应 着 一 个 XDES Entry 结构 ， 这 个 结构 记录 了 对 应 的 区 的 一 些 属性 。 我 们 先 看 图 来 对 这 个 
结构 有 个 大 致 的 了 解 : 


XDES Entry 结构 示意 图 


List Node 结构 示意 图 
Segment ID (8 字 节 ) 






Prev Node Page Number (4 字 节 ) 这 两 个 字段 是 指向 


前 一 个 XDES Entry 的 指针 
Prev Node Offset (2 字 节 ) 


List Node (12 字 节 ) | 


Next Node Page Number (4 字 节 ) 这 两 个 字段 是 指向 


后 一 个 XDES Entry 的 指针 
共 40 字 节 state (4 字 节 ) Next Node Offset (2 字 节 ) " 


Page State Bitmap (16 字 节 ) 


从 图 中 我 们 可 以 看 出 ， XDES Entry 是 一 个 40 个 字 节 的 结构 ， 大 致 分 为 4 个 部 分 ， 各 个 部 分 的 释义 如 下 : 
。 Segment ID (8 字 节 ) 
每 一 个 段 都 有 一 个 唯一 的 编号 ， 用 ID 表 示 ， 此 处 的 Segment ID 字段 表示 就 是 该 区 所 在 的 段 。 当 然 前 提 是 该 
区 已 经 被 分 配给 某 个 段 了 ， 不 然 的 话 该 字段 的 值 没 哈 意义 。 
。 List Node (12 字 节 ) 


这 个 部 分 可 以 将 若干 个 XDES Entry 结构 串联 成 一 个 链表 ， 大 家 看 一 下 这 个 List Node 的 结构 : 


List Node 结构 示意 图 


Prev Node Page Number (4 字 节 ) 这 两 个 字段 是 指向 


前 一 个 XDES Entry 的 指针 
Prev Node Offset (2 字 节 ) 


Next Node Page Number (4 字 节 ) 


这 两 个 字段 是 指向 


后 一 个 XDES Entry 的 指针 
Next Node Offset (2 字 节 ) 





如 果 我 们 想 定 位 表 空间 内 的 某 一 个 位 置 的 话 ， 只 需 指定 页 号 以 及 该 位 置 在 指定 页 号 中 的 页 内 偏 移 量 即 可 。 所 
以 : 

a Pre Node Page Number 和 Pre Node 0ffset 的 组 合 就 是 指向 前 一 个 XDES Entry 的 指针 

sn Next Node Page Number 和 Next Node 0ffset 的 组 合 就 是 指向 后 一 个 XYDES Entry 的 指针 。 


把 一 些 XDES Entry 结构 连 成 一 个 链表 有 了 哈 用 ? 稍 安 勿 躁 ， 我 们 稍 后 啼 明 XDES Entry 结构 组 成 的 链表 问 


KK 人 。 
State (4 字 节 ) 


这 个 字段 表明 区 的 状态 。 可 选 的 值 就 是 我 们 前 边 说 过 的 那 4 个 ， 分 别 是 : FREE 、 FREE FRAG 、 FULL FRAG 
和 FSEG 。 具 体 释 义 就 不 多 路 听 了 ， 前 边 说 的 够 仔细 了 。 
Page State Bitmap (16 字 节 ) 


这 个 部 分 共 占 用 16 个 字 节 ， 也 就 是 128 个 比特 位 。 我 们 说 一 个 区 默认 有 64 个 页 ， 这 128 个 比特 位 被 划分 为 64 
个 部 分 ， 每 个 部 分 2 个 比特 位 ， 对 应 区 中 的 一 个 页 。 比 如 Page State Bitmap 部 分 的 第 1 和 第 2 个 比特 位 对 应 
着 区 中 的 第 1 个 页 面 ， 第 3 和 第 4 个 比特 位 对 应 着 区 中 的 第 2 个 页 面 ， 依 此 类 推 ， Page State Bitmap 部 分 的 第 
127 和 128 个 比特 位 对 应 着 区 中 的 第 64 个 页 面 。 这 两 个 比特 位 的 第 一 个 位 表示 对 应 的 页 是 否 是 空闲 的 ， 第 二 个 
比特 位 还 没有 用 。 


9.2.3.1 XDES Entry 链 表 


到 现在 为 止 ， 我 们 已 经 提出 了 五 花 八 门 的 概念 ， 什 么 区 、 段 、 碎 片区 、 附 属于 段 的 区 、 XDES Entry 结构 吧 啦 吧 
啦 的 概念 ， 走 远 了 干 万 别 忘 了 自己 为 什么 出 发 ， 我 们 把 事情 搞 这 么 麻烦 的 初 心 仅仅 是 想 提 高 向 表 插入 数据 的 效率 
又 不 至 于 数据 量 少 的 表 浪 费 空间 。 现 在 我 们 知道 向 表 中 插入 数据 本 质 上 就 是 向 表 中 各 个 索引 的 叶子 节点 段 、 非 叶 
子 节点 段 插入 数据 ， 也 知道 了 不 同 的 区 有 不 同 的 状态 ， 再 回 到 最 初 的 起 点 ， 授 一 返 向 某 个 段 中 插入 数据 的 过 程 : 


。 当 段 中 数据 较 少 的 时 候 ， 首 先 会 查看 表 空 间 中 是 否 有 状态 为 FREE FRAG 的 区 ， 也 就 是 找 还 有 空闲 空间 的 碎片 
区 ， 如 果 找 到 了 ， 那 么 从 该 区 中 取 一 些 零 碎 的 页 把 数据 插 进 去 ; 否则 到 表 空间 下 申请 一 个 状态 为 FREE 的 
区 ， 也 就 是 空闲 的 区 ， 把 该 区 的 状态 变 为 FREE_FRAG ， 然 后 从 该 新 申请 的 区 中 取 一 些 零 碎 的 页 把 数据 插 进 
去 。 之 后 不 同 的 段 使 用 零碎 页 的 时 候 都 会 从 该 区 中 取 ， 直 到 该 区 中 没有 空 闪 空间 ， 然 后 该 区 的 状态 就 变 成 了 
FULL_FRAG 。 


现在 的 问题 是 你 怎么 知道 表 空 间 里 的 哪些 区 是 FREE 的 ， 哪 些 区 的 状态 是 FREE_FRAG 的 ， 哪 些 区 是 
FULL_FRAG 的 ? 要 知道 表 空 间 的 大 小 是 可 以 不 断 增 大 的 ， 当 增长 到 GB 级 别 的 时 候 ， 区 的 数量 也 就 上 干 了 ， 
我 们 总 不 能 每 次 都 遍历 这 些 区 对 应 的 XDES Entry 结构 吧 ? 这 时 候 就 是 YDES Entry 中 的 List Node 部 分 发 

挥 奇效 的 时 候 了 ， 我 们 可 以 通过 List Node 中 的 指针 ， 做 这 么 三 件 事 : 


”把 状态 为 FREE 的 区 对 应 的 XDES Entry 结构 通过 List Node 来 连接 成 一 个 链表 ， 这 个 链表 我 们 就 称 之 
为 FREE 链表 。 

把 状态 为 FREE_FRAG 的 区 对 应 的 XDES Entry 结构 通过 List Node 来 连接 成 一 个 链表 ， 这 个 链表 我 们 就 
称 之 为 FREE_FRAG 链表 。 

把 状态 为 FULL FRAG 的 区 对 应 的 XDES Entry 结构 通过 List Node 来 连接 成 一 个 链表 ， 这 个 链表 我 们 就 
称 之 为 FULL FRAG 链表 。 


这 样 每 当 我 们 想 找 一 个 FREE_FRAG 状态 的 区 时 ， 就 直接 把 FREE_FRAG 链表 的 头 节 点 拿 出 来 ， 从 这 个 节点 
中 取 一 些 零 碎 的 页 来 插入 数据 ， 当 这 个 节点 对 应 的 区 用 完 时 ， 就 修改 一 下 这 个 节点 的 State 字段 的 值 ， 
然后 从 FREE_FRAG 链表 中 移 到 FULL_FRAG 链表 中 。 同 理 ， 如 果 FREE_FRAG 链表 中 一 个 节点 都 没有 ， 那 
么 就 直接 从 FREE 链表 中 取 一 个 节点 移动 到 FREE_FRAG 链表 的 状态 ， 并 修改 该 节点 的 STATE 字段 值 为 
FREE _ FRAG ， 然 后 从 这 个 节点 对 应 的 区 中 获取 零碎 的 页 就 好 了 。 

。 当 段 中 数据 已 经 占 满 了 32 个 零散 的 页 后 ， 就 直接 申请 完整 的 区 来 插入 数据 了 。 


还 是 那个 问题 ， 我 们 怎么 知道 哪些 区 属于 哪个 段 的 呢 ?” 表 遍历 各 个 XDES Entry 结构 ?遍历 是 不 可 能 遍历 
的 ， 这 辈子 都 不 可 能 遍历 的 ， 有 链表 还 遍历 个 毛线 啊 。 所 以 我 们 把 状态 为 FSEG 的 区 对 应 的 XDES Entry 结构 
都 加 入 到 一 个 链表 叶 ? 傻 呀 ， 不 同 的 段 哪 能 共用 一 个 区 呢 ?” 你 想 把 索引 a 的 叶子 节点 段 和 索引 b 的 叶子 节点 段 
都 存储 到 一 个 区 中 么 ? 显然 我 们 想 要 每 个 段 都 有 它 独立 的 链表 ， 所 以 可 以 根据 段 号 (也 就 是 Segment ID ) 
来 建立 链表 ， 有 多 少 个 段 就 建 多 少 个 链表 ? 好 像 也 有 点 问题 ， 因 为 一 个 段 中 可 以 有 好 多 个 区 ， 有 的 区 是 完全 
空闲 的 ， 有 的 区 还 有 一 些 页 面 可 以 用 ， 有 的 区 已 经 没有 空闲 页 面 可 以 用 了 ， 所 以 我 们 有 必要 继续 细 分 ， 设 计 
InnoDB 的 大 叔 们 为 每 个 段 中 的 区 对 应 的 XDES Entry 结构 建立 了 三 个 链表 : 

" FREE 链表 : 同一 个 段 中 ， 所 有 页 面 都 是 空闲 的 区 对 应 的 XDES Entry 结构 会 被 加 入 到 这 个 链表 。 注 意 和 
直属 于 表 空 间 的 FREE 链表 区 别 开 了 ， 此 处 的 FREE 链表 是 附属 于 某 个 段 的 。 

NOT_FULL 链表 : 同一 个 段 中 ， 仍 有 空闲 空间 的 区 对 应 的 XDES Entry 结构 会 被 加 入 到 这 个 链表 。 

FULL 链表 : 同一 个 段 中 ， 已 经 没有 空闲 空间 的 区 对 应 的 XDES Entry 结构 会 被 加 入 到 这 个 链表 。 


再 次 强调 一 遍 ， 每 一 个 索引 都 对 应 两 个 段 ， 每 个 段 都 会 维护 上 述 的 3 个 链表 ， 比 如 下 边 这 个 表 : 


CREATE TABLE t ( 
cl INT NOT NULL AUTO INCREMENT, 
c2 VARCHAR (100) ， 
c3 VARCHAR (100) ， 
PRIMARY KEY (cl1), 
KEY idx c2 (c2) 
)ENGINE=InnoDB; 


这 个 表 t 共有 两 个 索引 ， 一 个 聚 簇 索引 ， 一 个 二 级 索引 idx_c2 ， 所 以 这 个 表 共有 4 个 段 ， 每 个 段 都 会 
维护 上 述 3 个 链表 ， 总 共 是 12 个 链表 ， 加 上 我 们 上 边 说 过 的 直属 于 表 空 间 的 3 个 链表 ， 整 个 独立 表 空间 共 
需要 维护 15 个 链表 。 所 以 段 在 数据 量 比较 大 时 插入 数据 的 话 ， 会 先 获 取 NOT_FULL 链表 的 头 节点 ， 直 接 
把 数据 插入 这 个 头 节点 对 应 的 区 中 即 可 ， 如 果 该 区 的 空间 已 经 被 用 完 ， 就 把 该 节点 移 到 FULL 链表 中 。 


9.2.3.2 链表 基 节 点 


上 边 光 是 介绍 了 一 堆 链表 ， 可 我 们 怎么 找到 这 些 链表 呢 ， 或 者 说 怎么 找到 某 个 链表 的 头 节点 或 者 尾 节 点 在 表 空 间 
中 的 位 置 呢 ? 设计 InnoDB 的 大 叔 当 然 考虑 了 这 个 问题 ， 他 们 设计 了 一 个 叫 List Base Node 的 结构 ， 翻 译 成 中 文 
就 是 链表 的 基 节 点 。 这 个 结构 中 包含 了 链表 的 头 节点 和 尾 节 点 的 指针 以 及 这 个 链表 中 包含 了 多 少 节点 的 信息 ， 我 
们 画图 看 一 下 这 个 结构 的 示意 图 : 


List Base Node 结构 示意 图 


List Length(4 字 节 ) 


First Node Page Number (4 字 节 ) 这 两 个 字段 是 指向 XDES Entry 


链表 头 节点 的 指针 
First Node Offset (2 字 节 ) 


Nolo [Tel NI lol CD) 


这 两 个 字段 是 指向 XDES Entry 
链表 尾 节点 的 指针 
Last Node Offset (2 字 节 ) 





我 们 上 边 介 绍 的 每 个 链表 都 对 应 这 么 一 个 List Base Node 结构 ， 其 中 : 


。 List Length 表明 该 链表 一 共有 多 少 节点 ， 
。 First Node Page Number 和 First Node 0ffset 表明 该 链表 的 头 节 点 在 表 空间 中 的 位 置 。 
。 Last Node Page Number 和 Last Node 0ffset 表明 该 链表 的 尾 节 点 在 表 空间 中 的 位 置 。 


一 般 我 们 把 某 个 链表 对 应 的 List Base Node 结构 放置 在 表 空间 中 国定 的 位 置 ， 这 样 想 找 定位 某 个 链表 就 变 得 so 


easy 啦 。 


9.2.3.3 链表 小 结 


综 上 所 述 ， 表 空间 是 由 若干 个 区 组 成 的 ， 每 个 区 都 对 应 一 个 XDES Entry 的 结构 ， 直 属于 表 空 间 的 区 对 应 的 XDES 
Entry 结构 可 以 分 成 FREE 、 FREE_FRAG 和 FULL_FRAG 这 3 个 链表 ; 每 个 段 可 以 附属 若干 个 区 ， 每 个 段 中 的 区 对 
应 的 XDES Entry 结构 可 以 分 成 FREE 、 NOT_FULL 和 FULL 这 3 个 链表 。 每 个 链表 都 对 应 一 个 List Base Node 的 
结构 ， 这 个 结构 里 记录 了 链表 的 头 、 尾 节点 的 位 置 以 及 该 链表 中 包含 的 节点 数 。 正 是 因为 这 些 链表 的 存在 ， 管 理 
这 些 区 才 变 成 了 一 件 so easy 的 事情 。 


9.2.4 段 的 结构 
我 们 前 边 说 过 ， 段 其 实 不 对 应 表 空间 中 某 一 个 连续 的 物理 区 域 ， 而 是 一 个 逻辑 上 的 概念 ， 由 若干 个 零散 的 页 面 以 


及 一 些 完 整 的 区 组 成 。 像 每 个 区 都 有 对 应 的 XDES Entry 来 记录 这 个 区 中 的 属性 一 样 ， 设 计 InnoDB 的 大 叔 为 每 个 
段 都 定义 了 一 个 INODE Entry 结构 来 记录 一 下 段 中 的 属性 。 大 家 看 一 下 示意 图 : 


INODE Entry 结构 示意 图 


Segment ID (8 字 节 ) 
Ney AU UN ES) 


List Base Node For FREE List (16 字 节 ) 


这 三 个 部 分 分 别 对 应 FREE、 


List Base Node For NOT_FULL List (16 字 节 ) NOT_FULL 和 FULL 链表 的 基 节 点 


共 1 92 字 节 List Base Node For FULLList (16 字 节 ) 


WETeliwNTTlw CE 可 
Fragment Array Entry 0 (4 字 节 ) 


Fragment Array Entry 1 (4 字 节 ) 
此 处 共有 32 个 


Fragment Array Entry 





Fragment Array Entry 31 (4 字 节 ) 


它 的 各 个 部 分 释义 如 下 : 
。 Segment ID 


就 是 指 这 个 INODE Entry 结构 对 应 的 段 的 编号 (ID) 。 
NOT_FULL N_USED 


这 个 字段 指 的 是 在 NOT_FULL 链表 中 已 经 使 用 了 多 少 个 页 面 。 下 次 从 NOT_FULL 链表 分 配 空闲 页 面 时 可 以 直接 
根据 这 个 字段 的 值 定位 到 。 而 不 用 从 链表 中 的 第 一 个 页 面 开 始 遍历 着 寻找 空闲 页 面 。 


3 个 List Base Node 


分 别 为 段 的 FREE 链表 、 NOT_FULL 链表 、 FULL 链表 定义 了 List Base Node ， 这 样 我 们 想 查找 某 个 段 的 某 
个 链表 的 头 节点 和 尾 节 点 的 时 候 ， 就 可 以 直接 到 这 个 部 分 找到 对 应 链表 的 List Base Node 。so easy! 


Magic Number : 


这 个 值 是 用 来 标记 这 个 INODE Entry 是 否 已 经 被 初始 化 了 (初始 化 的 意思 就 是 把 各 个 字段 的 值 都 填 进 去 
了 ) 。 如 果 这 个 数字 是 值 的 97937874 ， 表 明 该 INODE Entry 已 经 初始 化 ， 否 则 没有 被 初始 化 。 (不 用 纠结 
这 个 值 有 哈 特 殊 合 义 ， 人 家 规定 的 ) 。 


Fragment Array Entry 


我 们 前 边 强调 过 无 数 次 段 是 一 些 零散 页 面 和 一 些 完整 的 区 的 集合 ， 每 个 Fragment Array Entry 结构 都 对 应 
着 一 个 零散 的 页 面 ， 这 个 结构 一 共 4 个 字 节 ， 表 示 一 个 零散 页 面 的 页 号 。 


结合 着 这 个 INODE Entry 结构 ， 大 家 可 能 对 段 是 一 些 零 散 页 面 和 一 些 完整 的 区 的 集合 的 理解 再次 深刻 一 些 。 


9.2.5 各 类 型 页 面 详细 情况 


到 现在 为 止 我 们 已 经 大 概 清楚 了 表 空 间 、 段 、 区 、XDES Entry、INODE Entry、 各 种 以 XDES Enty 为 节点 的 链表 
的 基本 概念 了 ， 可 是 总 有 一 种 飞 在 天 上 不 踏实 的 感觉 ， 每 个 区 对 应 的 XDES Entry 结构 到 底 存 储 在 表 空 间 的 什么 
地 方 ? 直属 于 表 空 间 的 FREE 、 FREE FRAG 、 FULL_FRAG 链表 的 基 节 点 到 底 存 储 在 表 空 间 的 什么 地 方 ? 每 个 段 对 


应 的 INODE Entry 结构 到 底 存 在 表 空间 的 什么 地 方 ? 我 们 前 边 介 绍 了 每 256 个 连续 的 区 算是 一 个 组 ， 想 解决 刚才 
提出 来 的 这 些 个 疑问 还 得 从 每 个 组 开头 的 一 些 类 型 相同 的 页 面 说 起 ， 接 下 来 我 们 一 个 页 面 一 个 页 面 的 分 析 ， 真 相 
马上 就 要 浮 出 水 面 了 。 

9.2.5.1 FSP_HDR 类 型 


首先 看 第 一 个 组 的 第 一 个 页 面 ， 当 然 也 是 表 空 间 的 第 一 个 页 面 ， 页 号 为 0 。 这 个 页 面 的 类 型 是 FSP_HDR ， 它 存储 
了 表 空 间 的 一 些 整体 属性 以 及 第 一 个 组 内 256 个 区 的 对 应 的 XYDES Entry 结构 ， 直 接 看 这 个 类 型 的 页 面 的 示意 图 : 


FSP_HDR 类 型 页 结构 示意 图 


38 字 节 File Header 
auto we 112 字 节 File Space Header 


40 字 节 XDES Entry 0 
We A 每 个 区 对 应 一 个 XDES Entry， 
40 字 节 XDES Entry 2 每 个 XDES Entry 占 用 40 字 节 。 


共有 256 个 XDES Entry， 所 以 
XDES Entry 部 分 共 占 10240 字 节 


40 字 节 XDES Entry 255 


5986 字 节 Empty Space 





8 字 节 File Trailer 





从 图 中 可 以 看 出 ， 一 个 完整 的 FSP_HDR 类 型 的 页 面 大 致 由 5 个 部 分 组 成 ， 各 个 部 分 的 具体 释义 如 下 表 : 


名 称 中 文 名 占用 空间 大 小 简单 描述 
File Header 文件 头 部 38 字 节 页 的 一 些 通用 信息 
File Space Header ” 表 空 间 头 部 112 字 节 表 空 间 的 一 些 整 体 属性 信息 
XDES Entry 区 描述 信息 。 10240 字 节 存储 本 组 256 个 区 对 应 的 属性 信息 


Empty Space 尚未 使 用 空间 ”5986 字 节 ”用 于 页 结构 的 填充 ， 没 喻 实际 意义 


File Trailer 文件 尾部 8 字 节 校 验 页 是 否 完整 


File Header 和 File Trailer 就 不 再 强调 了 ， 另 外 的 几 个 部 分 中 ， Empty Space 是 尚未 使 用 的 空间 ， 我 们 不 用 
管 它 ， 重 点 来 看 看 File Space Header 和 XDES Entry 这 两 个 部 分 。 


File Space HeaderB 
从 名 字 就 可 以 看 出 来 ， 这 个 部 分 是 用 来 存储 表 空 间 的 一 些 整 体 属性 的 ， 废 话 少 说 ， 看 图 : 


File Space Header 结 构 示 意图 


Space ID (4 字 节 ) 
FSP_HDR 类 型 页 结构 示意 图 





Not Used (4 字 节 ) 
File Header 
Size (4 字 节 ) 
File Space Header 
FREE Limit (4 字 节 ) 
XDES Entry0 
XDES Entry 1 Space Flags (4 字 节 ) 
XDES Entry 2 
FRAG_N_USED (4 字 节 ) 
RE 总 共 是 112 字 节 
XDES Entry 255 List Base Node for FREE List (16 字 节 ) 
List Base Node for FREE_FRAG List (16 字 节 ) 
mpty Space 
List Base Node for FULL_FRAG List (16 字 节 ) 
e Trail 
Next Unused Segment ID (8 字 节 ) 
List Base Node for SEG_INODES_FULL (16 字 节 ) 
List Base Node for SEG_INODES_FREE (16 字 节 ) 
哇 喇 ， 字 7 段 有 点 儿 多 哦 ， 不 急 一 个 一 个 慢 慢 看 。 下 面 是 各 个 属性 的 简单 描述 : 
占用 空间 
名 称 > 描述 
Space ID 4 字 节 表 空间 的 ID 
Not Used 4 字 节 这 4 个 字 节 未 被 使 用 ， 可 以 忽略 
Size 4 字 节 当前 表 空 间 占 有 的 页 面 数 
E 4 字 节 尚未 被 初始 化 的 最 小 页 号 ， 大 于 或 等 于 这 个 页 号 的 区 对 应 的 XDES Entry 结 构 都 
没有 被 加 入 FREE 链表 
Space Flags 4 字 节 表 空 间 的 一 些 占 用 存储 空间 比较 小 的 属性 
FRAG_N_USED 4 字 节 FREE_FRAG 链 表 中 已 使 用 的 页 面 数量 
List Base Node for FREE List 16 字 节 FREE 链表 的 基 节 点 
List Base FREE_FRAG 16 字 节 FREE_FREG 链 表 的 基 节 点 
List Base 0 FULL_FRAG 16 字 节 FULL_FREG 链 表 的 基 节 点 
Next Unused Segment ID 8 字 节 当前 表 空 间 中 下 一 个 未 使 用 的 Segment ID 
List Base Node for Sp -HH 
SEG_INODES FULL List 16 字 站 SEG_INODES_FULL 链 表 的 基 节 点 
List Base Node for es i -HH 
SEG_INODES_ FREE List 2 SEG_INODES_FREE 链 表 的 基 节 点 


这 里 头 的 Space ID 、 Not Used 、 Size 这 三 个 字段 大 家 肯定 一 看 就 懂 ， 其 他 的 字段 我 们 再 详细 睐 颗 ， 为 了 大 家 
的 阅读 体验 ， 我 就 不 严格 按照 实际 的 字段 顺序 来 解释 各 个 字段 了 哈 。 


。 List Base Node for FREE List 、 List Base Node for FREE FRAG List 、 List Base Node for 
FULL FRAG List 。 


这 三 个 大 家 看 着 太 亲 切 了 ， 分 别 是 直属 于 表 空 间 的 FREE 链表 的 基 节 点 、 FREE_FRAG 链表 的 基 节 点 、 
FULL_FRAG 链表 的 基 节 点 ， 这 三 个 链表 的 基 节 点 在 表 空 间 的 位 置 是 固定 的 ， 就 是 在 表 空 间 的 第 一 个 页 面 (也 
就 是 FSP_HDR 类 型 的 页 面 ) 的 File Space Header 部 分 。 所 以 之 后 定位 这 几 个 链表 就 so easy 啦 。 
FRAG N USED 


这 个 字段 表明 在 FREE_FRAG 链表 中 已 经 使 用 的 页 面 数量 ， 方 便 之 后 在 链表 中 查找 空闲 的 页 面 。 
FREE Limit 


我 们 知道 表 空 间 都 对 应 着 具体 的 磁盘 文件 ， 一 开始 我 们 创建 表 空 间 的 时 候 对 应 的 磁盘 文件 中 都 没有 数据 ， 所 
以 我 们 需要 对 表 空 间 完成 一 个 初始 化 操作 ， 包 括 为 表 空间 中 的 区 建立 XDES Entry 结构 ， 为 各 个 段 建立 
INODE Entry 结构 ， 建 立 各 种 链表 吧 啦 吧 啦 的 各 种 操作 。 我 们 可 以 一 开始 就 为 表 空间 申请 一 个 特别 大 的 空 
间 ， 但 是 实际 上 有 绝 大 部 分 的 区 是 空闲 的 ， 我 们 可 以 选择 把 所 有 的 这 些 空闲 区 对 应 的 YDES Entry 结构 加 入 
FREE 链表 ， 也 可 以 选择 只 把 一 部 分 的 空闲 区 加 入 FREE 链表 ， 等 啥 时 候 空 闲 链表 中 的 XDES Entry 结构 对 应 
的 区 不 够 使 了 ， 再 把 之 前 没有 加 入 FREE 链表 的 空闲 区 对 应 的 XDES Entry 结构 加 入 FREE 链表 ， 中 心思 想 就 
是 喻 时 候 用 到 | 喻 时 候 初 始 化 ， 设 计 InnoDB 的 大 叔 采用 的 就 是 后 者 ， 他 们 为 表 空 间 定义 了 FREE Limit 这 个 字 
段 ， 在 该 字段 表示 的 页 号 之 前 的 区 都 被 初始 化 了 ， 之 后 的 区 尚未 被 初始 化 。 


Next Unused Segment ID 


表 中 每 个 索引 都 对 应 2 个 段 ， 每 个 段 都 有 一 个 唯一 的 ID， 那 当 我 们 为 某 个 表 新 创建 一 个 索引 的 时 候 ， 就 意味 
着 要 创建 两 个 新 的 段 。 那 怎么 为 这 个 新 创建 的 段 找 一 个 唯一 的 ID 呢 ?去 遍历 现在 表 空间 中 所 有 的 段 么 ? 我 们 
说 过 ,人 遍历 是 不 可 能 遍历 的 ， 这 辈子 都 不 可 能 遍历 ， 所 以 设计 InnoDB 的 大 叔 们 提出 了 这 个 名 叫 Next 
Unused Segment ID 的 字段 ， 该 字段 表明 当前 表 空 间 中 最 大 的 段 ID 的 下 一 个 ID， 这 样 在 创建 新 段 的 时 候 赋予 
新 段 一 个 唯一 的 ID 值 就 so easy 啦 ， 直 接 使 用 这 个 字段 的 值 就 好 了 。 


Space Flags 


表 空 间 对 于 一 些 布尔 类 型 的 属性 ， 或 者 只 需要 寥寥 几 个 比特 位 搞定 的 属性 都 放 在 了 这 个 Space Flags 中 和 存 
储 ， 虽 然 它 只 有 4 个 字 节 ，32 个 比特 位 大 小 ， 却 存储 了 好 多 表 空 间 的 属性 ， 详 细 情 况 如 下 表 : 


| 标志 名 称 | 占用 的 空间 (单位 : bit) | 描述 | ]:--:|:--:|:--:| | POST_ANTELOPE |1| 表 示 文 件 格式 是 否 大 于 ANTELOPE | 
| ZIP_SSIZE |4| 表 示 压 缩 页 面 的 大 小 | | ATOMIC_BLOBS |1| 表 示 是 否 自 动 把 值 非常 长 的 字段 放 到 BLOB 页 里 | 

| PAGE_SSIZE |4| 页 面 大 小 | | DATA_DIR |1| 表 示 表 空间 是 否 是 从 默认 的 数据 目录 中 获取 的 | | SHARED |1| 是 否 为 共 
享 表 空 间 | | TEMPORARY |1| 是 否 为 临时 表 空间 | | ENCRYPTION |1| 表 空间 是 否 加 密 | | UNUSED |18| 没 有 使 用 到 的 比 
特 位 | 


小 贴 士 : 
不 同 MySQL 版 本 里 SPACE_FLAGS 代表 的 属性 可 能 有 些 差异 ， 我 们 这 里 列举 的 是 5. 7. 21 版 本 的 。 不 
过 大 家 现在 不 必 深 究 它 们 的 意思 ， 因 为 我 们 一 旦 把 这 些 概念 展开 ， 就 需要 非常 大 的 篇 幅 ， 主 要 怕 大 
家 受 不 了 。 我 们 还 是 先 挑 重要 的 看 ， 把 主要 的 表 空 间 结 构 了 解 完 ， 这 些 SPACE_FLAGS 里 的 属性 的 
节 就 暂时 不 深究 了 。 
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List Base Node for SEG INODES FULL List 和 List Base Node for SEG INODES FREE List 


每 个 段 对 应 的 INODE Entry 结构 会 集中 存放 到 一 个 类 型 位 INODE 的 页 中 ， 如 果 表 空间 中 的 段 特 别 多 ， 则 会 有 
多 个 INODE Entry 结构 ， 可 能 一 个 页 放 不 下 ， 这 些 INODE 类 型 的 页 会 组 成 两 种 列表 : 
" SEG_INODES_FULL 链表 ， 该 链表 中 的 INODE 类 型 的 页 面 都 已 经 被 INODE Entry 结构 填充 满 了 ， 没 空闲 
空间 存放 额外 的 INODE Entry 了 。 
" SEG_INODES_FREE 链表 ， 该 链表 中 的 INODE 类 型 的 页 面 都 已 经 仍 有 空闲 空间 来 存放 INODE Entry 结 


构 。 
由 于 我 们 现在 还 没有 详细 啼 明 INODE 类 型 页 ， 所 以 等 会 说 过 INODE 类 型 的 页 之 后 再 回 过 头 来 看 着 两 个 链 
表 。 


XDES EntryB 


紧 接着 File Space Header 部 分 的 就 是 ZDES Entry 部 分 了 ， 我 们 嘴 上 啼 叫 过 无 数 次 ， 却 从 没 见 过 真 身 的 XDES 
Entry 就 是 在 表 空 间 的 第 一 个 页 面 中 保存 的 。 我 们 知道 一 个 XYDES Entry 结构 的 大 小 是 40 字 节 ， 但 是 一 个 页 面 的 
大 小 有 限 ， 只 能 存放 有 限 个 XDES Entry 结构 ， 所 以 我 们 才 把 256 个 区 划分 成 一 组 ， 在 每 组 的 第 一 个 页 面 中 存放 
256 个 XDES Entry 结构 。 大 家 回 看 那个 FSP_HDR 类 型 页 面 的 示意 图 ， XDES Entry 0 就 对 应 着 extent 0 ， XDES 
Entry 1 就 对 应 着 extent 1 .… 依 此 类 推 ， XDES Entry255 就 对 应 着 extent 255 。 


因为 每 个 区 对 应 的 XDES Entry 结构 的 地 址 是 固定 的 ， 所 以 我 们 访问 这 些 结构 就 so easy 啦 ， 至 于 该 结构 的 详细 使 
用 情况 我 们 已 经 路 劝 的 够 明白 了 ， 在 这 就 不 蓝 述 了 。 


9.2.5.2 XDES 类 型 


我 们 说 过 ， 每 一 个 XDES Entry 结构 对 应 表 空 间 的 一 个 区 ， 虽 然 一 个 XDES Entry 结构 只 占用 40 字 节 ， 但 你 抵 不 
住 表 空 间 的 区 的 数量 也 多 啊 。 在 区 的 数量 非常 多 时 ， 一 个 单独 的 页 可 能 就 不 够 存放 足够 多 的 XDES Entry 结构 ， 
所 以 我 们 把 表 空 间 的 区 分 为 了 若干 个 组 ， 每 组 开头 的 一 个 页 面 记 录 着 本 组 内 所 有 的 区 对 应 的 XDES Entry 结构 。 
由 于 第 一 个 组 的 第 一 个 页 面 有 些 特殊 ， 因 为 它 也 是 整个 表 空 间 的 第 一 个 页 面 ， 所 以 除了 记录 本 组 中 的 所 有 区 对 应 
的 XDES Entry 结构 以 外 ， 还 记录 着 表 空 间 的 一 些 整 体 属性 ， 这 个 页 面 的 类 型 就 是 我 们 刚刚 说 完 的 FSP_HDR 类 
型 ， 整 个 表 空间 里 只 有 一 个 这 个 类 型 的 页 面 。 除 去 第 一 个 分 组 以 外 ， 之 后 的 每 个 分 组 的 第 一 个 页 面 只 需要 记录 本 
组 内 所 有 的 区 对 应 的 XDES Entry 结构 即 可 ， 不 需要 再 记录 表 空 间 的 属性 了 ， 为 了 和 FSP_HDR 类 型 做 区 别 ， 我们 
把 之 后 每 个 分 组 的 第 一 个 页 面 的 类 型 定义 为 YDES ， 它 的 结构 和 FSP_HDR 类 型 是 非常 相似 的 : 


XDES 类 型 页 结构 示意 图 
fhe | File Header 
/aas 无 
0 字 节 二 XDES Entry 0 
Ce 2308 SENET 每 个 区 对 应 一 个 XDES Entry， 
40 字 节 XDES Entry 2 每 个 XDES Entry 占 用 40 字 节 。 


共有 256 个 XDES Entry， 所 以 
XDES Entry 部 分 共 占 10240 字 节 


= 盾 必 过 二 半生 富生 
3 


40 字 节 XDES Entry 255 


\ 5986 字 节 [lanlel nA] eles 





+ 8 字 节 File Trailer 


16 KB 





与 FSP_HDR 类 型 的 页 面 对 比 ， 除 了 少 了 File Space Header 部 分 之 外 ， 也 就 是 除了 少 了 记录 表 空 间 整 体 属性 的 部 
分 之 外 ， 其 余 的 部 分 是 一 样 一 样 的 。 由 于 我 们 上 边 史 路 的 已 经 够 仔细 了 ， 对 于 XDES 类 型 的 页 面 也 就 不 重复 路 叫 
了 哈 。 


9.2.5.3 IBUF_BITMAP 类 型 


对 比 前 边 介绍 表 空 间 的 图 ， 每 个 分 组 的 第 二 个 页 面 的 类 型 都 是 IBUF_BITMAP ， 这 种 类 型 的 页 里 边 记录 了 一 些 有 
关 Change Buffer 的 东 东 ， 由 于 这 个 Change Buffer 里 又 包含 了 贼 多 的 概念 ， 考 虑 到 大 家 在 一 章 中 接受 这 么 多 新 
概念 有 点 呼吸 不 适 ， 怕 大 家 心脏 病 犯 了 所 以 就 把 Change Buffer 的 相关 知识 放 到 后 边 的 章节 中 ， 大 家 稍 安 勿 躁 


哈 。 


9.2.5.4 INODE 类 型 


再 次 对 比 前 边 介绍 表 空 间 的 图 ， 第 一 个 分 组 的 第 三 个 页 面 的 类 型 是 INODE 。 我 们 前 边 说 过 设计 InnoDB 的 大 叔 为 
每 个 索引 定义 了 两 个 段 ， 而 且 为 某 些 特殊 功能 定义 了 些 特殊 的 段 。 为 了 方便 管理 ， 他 们 又 为 每 个 段 设计 了 一 个 
INODE Entry 结构 ， 这 个 结构 中 记录 了 关于 这 个 段 的 相关 属性 。 而 我 们 这 会 儿 要 介绍 的 这 个 INODE 类 型 的 页 就 是 


为 了 存储 INODE Entry 结构 而 存在 的 。 好 了 ， 废 话 少 说， 直接 看 图 : 


INODE 类 型 页 结构 示意 图 









Prev Node Page Number (4 宇 节 ) 


File Header Prev Node Offset (2 字 物 ) 


Next Node Page Number (4 字 节 ) 


List Node for INODE Page List 
INODE Entry 0 -| Next Node Offset (2 字 节 ) 


ODE SD 每 个 段 对 应 一 个 INODE Entry， 
INODE Entry 2 每 个 INODE Entry 占 用 192 字 节 。 
共有 85 个 INODE Entry， 所 以 
INODE Entry 部 分 共 占 16128 字 节 


INODE Entry 84 
Empty Space 


File Trailer 





从 图 中 可 以 看 出 ， 一 个 INODE 类 型 的 页 面 是 由 这 几 部 分 构成 的 : 


名 称 中 文 名 占用 空间 大 小 简单 描述 
File Header 文件 头 部 38 字 节 页 的 一 些 通用 信息 


List Node for INODE Page List ”通用 链表 节点 12 字 节 存储 上 一 个 INODE 页 面 和 下 一 个 INODE 页 面 的 指针 


INODE Entry 段 描 述 信息 16128 字 节 
Empty Space 尚未 使 用 空间 6 字 节 用 于 页 结构 的 填充 ， 没 哈 实 际 意义 
File Trailer 文件 尾部 8 字 节 校 验 页 是 否 完整 


除了 File Header 、 Empty Space 、 File Trailer 这 几 个 老 朋 友 外 ， 我 们 重点 关注 List Node for INODE 
Page List 和 INODE Entry 这 两 个 部 分 。 


首先 看 INODE Entry 部 分 ,我 们 前 边 已 经 详细 介绍 过 这 个 结构 的 组 成 了 ， 主 要 包括 对 应 的 段 内 零散 页 面 的 地 址 以 
及 附属 于 该 段 的 FREE 、 NOT_FULL 和 FULL 链表 的 基 节 点 。 每 个 INODE Entry 结构 占用 192 字 节 ， 一 个 页 面 里 可 
以 存储 85 个 这 样 的 结构 。 


重点 看 一 下 List Node for INODE Page List 这 个 玩意 儿 ， 因 为 一 个 表 空 间 中 可 能 存在 超过 85 个 段 ， 所 以 可 能 一 
个 INODE 类 型 的 页 面 不 足以 存储 所 有 的 段 对 应 的 INODE Entry 结构 ， 所 以 就 需要 额外 的 INODE 类 型 的 页 面 来 存 
储 这 些 结构 。 还 是 为 了 方便 管理 这 些 INODE 类 型 的 页 面 ， 设 计 InnoDB 的 大 叔 们 将 这 些 INODE 类 型 的 页 面 串联 成 
两 个 不 同 的 链表 : 


。 ”SEG_INODES_FULL 链表 : 该 链表 中 的 INODE 类 型 的 页 面 中 已 经 没有 空闲 空间 来 存储 额外 的 INODE Entry 结 
构 了 。 

。 ”SEG_INODES_FREE 链表 : 该 链表 中 的 INODE 类 型 的 页 面 中 还 有 空闲 空间 来 存储 额外 的 INODE Entry 结构 
了 。 


想必 大 家 已 经 认 出 这 两 个 链表 了 ， 我 们 前 边 提 到 过 这 两 个 链表 的 基 节 点 就 存储 在 File Space Header 里 边 ， 也 就 
是 说 这 两 个 链表 的 基 节 点 的 位 置 是 固定 的 ， 所 以 我 们 可 以 很 轻松 的 访问 到 这 两 个 链表 。 以 后 每 当 我 们 新 创建 一 个 
段 (创建 索引 时 就 会 创建 段 ) 时 ， 都 会 创建 一 个 INODE Entry 结构 与 之 对 应 ， 人 存储 INODE Entry 的 大 致 过 程 就 是 
这 样 的 : 


。 先 看 看 SEG_INODES_FREE 链表 是 否 为 空 ， 如 果 不 为 空 ， 直 接 从 该 链表 中 获取 一 个 节点 ， 也 就 相当 于 获取 到 一 
个 仍 有 空闲 空间 的 INODE 类 型 的 页 面 ， 然 后 把 该 INODE Entry 结构 防 到 该 页 面 中 。 当 该 页 面 中 无 剩余 空间 
时 ， 就 把 该 页 放 到 SEG_INODES_FULL 链表 中 。 

。 如果 SEG_INODES_FREE 链表 为 空 ， 则 需要 从 表 空 间 的 FREE_FRAG 链表 中 申请 一 个 页 面 ， 修 改 该 页 面 的 类 型 
为 INODE ， 把 该 页 面 放 到 SEG_INODES_FREE 链表 中 ， 与 此 同时 把 该 INODE Entry 结构 放 入 该 页 面 。 


9.2.6 Segment Header 结构 的 运用 


我 们 知道 一 个 索引 会 产生 两 个 段 ， 分 别 是 叶子 节点 段 和 非 叶子 节点 段 ， 而 每 个 段 都 会 对 应 一 个 INODE Entry 结 
构 ， 那 我 们 怎么 知道 某 个 段 对 应 哪个 INODE Entry 结构 呢 ? 所 以 得 找 个 地 方 记 下 来 这 个 对 应 关系 。 和 希望 你 还 记得 
我 们 在 路 鹃 数据 页 ， 也 就 是 INDEX 类 型 的 页 时 有 一 个 Page Header 部 分 ， 当 然 我 不 能 指望 你 记 住 ， 所 以 把 Page 
Header 部 分 再 抄 一 遍 给 你 看 : 

Page Header 部 分 (为 突出 重点 ， 省 略 了 好 多 属性 ) 


名 称 占用 空间 大 小 描述 
PAGE_ BTR_SEG_LEAF 10 字 节 B+ 树 叶子 段 的 头 部 信息 ， 仪 在 B+ 树 的 根 页 定义 
PAGE_BTR_SEG_TOP 10 字 节 。 B+ 树 非 叶子 段 的 头 部 信息 ， 仪 在 B+ 树 的 根 页 定义 


其 中 的 PAGE BTR_ SEG LEAF 和 PAGE BTR_SEG TOP 都 占用 10 个 字 节 ， 它 们 其 实 对 应 一 个 叫 Segment Header 的 结 
构 ， 该 结构 图 示 如 下 : 


Segment Header 结构 


Space ID of the INODE Entry (4 字 贡 ) 


Page Number of the INODE Entry (4 字 节 ) 


Byte Offset of the INODE Entry (2 字 节 ) 





各 个 部 分 的 具体 释义 如 下 : 
名 称 占用 字 节 数 描述 
Space ID of the INODE Entry 4 INODE Entry 结 构 所 在 的 表 空 间 ID 
Page Number of the INODE Entry 4 INODE Entry 结 构 所 在 的 页 面 页 号 
Byte Offset of the INODE Ent 2 INODE Entry 结 构 在 该 页 面 中 的 偏 移 量 


这 样子 就 很 清晰 了 ， PAGE_BTR_SEG_LEAF 记录 着 叶子 节点 段 对 应 的 INODE Entry 结构 的 地 址 是 哪个 表 空 间 的 哪个 
页 面 的 哪个 偏 移 量 ， PAGE_BTR_SEG_TOP 记录 着 非 叶 子 节点 段 对 应 的 INODE Entry 结构 的 地 址 是 哪个 表 空 间 的 哪 
个 页 面 的 哪个 偏 移 量 。 这 样子 索引 和 其 对 应 的 段 的 关系 就 建立 起 来 了 。 不 过 需要 注意 的 一 点 是 ， 因 为 一 个 索引 只 
对 应 两 个 段 ， 所 以 只 需要 在 索引 的 根 页 面 中 记录 这 两 个 结构 即 可 。 


9.2.7 真实 表 空间 对 应 的 文件 大 小 


等 会 儿 等 会 儿 ， 上 边 的 这 些 概念 已 经 压 的 快 喘 不 过 气 了 。 不 过 独立 表 空 间 有 那么 大 么 ”我 到 数据 目录 里 看 了 ， 一 
个 新 建 的 表 对 应 的 . ibd 文件 只 占用 了 96K， 才 6 个 页 面 大 小 ， 上 边 的 内 容 该 不 是 扯 秩 子 吧 ? 


哈 ， 一 开始 表 空间 占用 的 空间 自然 是 很 小 ， 因 为 表 里 边 都 没有 数据 嘛 ! 不 过 别 忘 了 这 些 . ibd 文件 是 自 扩展 的 ， 
随 着 表 中 数据 的 增多 ， 表 空间 对 应 的 文件 也 逐渐 增 大 。 


9.3 系统 表 空 间 

了 解 完了 独立 表 空 间 的 基本 结构 ， 系 统 表 空间 的 结构 也 就 好 理解 多 了 ， 系 统 表 空间 的 结构 和 独立 表 空间 基本 类 

似 ， 只 不 过 由 于 整个 MySQL 进 程 只 有 一 个 系统 表 空 间 ， 在 系统 表 空间 中 会 额外 记录 一 些 有 关 整 个 系统 信息 的 页 

面 ， 所 以 会 比 独立 表 空 间 多 出 一 些 记 录 这 些 信 息 的 页 面 。 因 为 这 个 系统 表 空 间 最 牛 通 ， 相 当 于 是 表 空 间 之 首 ， 所 
以 它 的 表 空 间 ID (Space ID) 是 0 。 

9.3.1 系统 表 空 间 的 整体 结构 

系统 表 空间 与 独立 表 空间 的 一 个 非常 明显 的 不 同 之 处 就 是 在 表 空间 开头 有 许多 记录 整个 系统 属性 的 页 面 ， 如 图 : 


extent 0 的 各 个 页 


FSP_HDR (16KB) 


IBUF_BITMAP (16KB) 
INODE (16KB) 


SYS : insert buffer header (16KB) 


系统 表 空 间 结 构 


INDEX : insert buffer root (16KB) 
TRX_SYS (16KB) 





first rollback segment (16KB) 


112 KB 
SYS : data directory header (16KB) 


-i 
extent 256 的 各 个 页 


MS XDES (16kB) 


256 MB + 16KB 
IBUF_BITMAP (16KB) 





512MB 


512 MB + 16KB 


512 MB + 32KB 





513MB 
可 以 看 到 ， 系 统 表 空间 和 独立 表 空间 的 前 三 个 页 面 (页 号 分 别 为 0 、 1 、 2 ， 类 型 分 别 是 FSP_HDR 、 


IBUF BITMAP 、 INODE ) 的 类 型 是 一 致 的 ， 只 是 页 号 为 3 ~ 7 的 页 面 是 系统 表 空间 特有 的 ， 我 们 来 看 一 下 这 些 
多 出 来 的 页 面 都 是 干 喻 使 的 : 


页 号 ”页面 类 型 英文 描述 描述 
3 SYS Insert Buffer Header ”存储 Insert Buffer 的 头 部 信息 
4 INDEX Insert Buffer Root 存储 Insert Buffer 的 根 页 面 


5 TRX_SYS Transction System 事务 系统 的 相关 信息 


6 SYS First Rollback Segment 第 一 个 回 滚 段 的 页 面 
了 SYS Data Dictionary Header ”数据 字典 头 部 信息 


除了 这 几 个 记录 系统 属性 的 页 面 之 外 ， 系 统 表 空间 的 extent 1 和 extent 2 这 两 个 区 ， 也 就 是 页 号 从 64 ~ 191 
这 128 个 页 面 被 称 为 Doublewrite buffer ， 也 就 是 双 写 缓冲 区 。 不 过 上 述 的 大 部 分 知识 都 涉及 到 了 事务 和 多 版 本 
控制 的 问题 ， 这 些 问 题 我 们 会 放 在 后 边 的 章节 集中 啼 明 ， 现 在 讲述 太 影响 用 户 体验 ， 所 以 现在 我 们 只 啼 明 一 下 有 
关 InnoDB 数 据 字典 的 知识 ， 其 余 的 概念 在 后 边 再 看 。 


9.3.1.1 InnoDB 数 据 字 典 


我 们 平时 使 用 INSERT 语句 向 表 中 插入 的 那些 记录 称 之 为 用 户 数据 ，MySQL 只 是 作为 一 个 软件 来 为 我 们 来 保管 这 
些 数据 ， 提 供 方 便 的 增删 改 查 接口 而 已 。 但 是 每 当 我 们 向 一 个 表 中 插入 一 条 记录 的 时 候 ，MySQL 先 要 校 验 一 下 插 
入 语句 对 应 的 表 存 不 存在 ， 插 入 的 列 和 表 中 的 列 是 否 符合 ， 如 果 语 法 没有 问题 的 话 ， 还 需要 知道 该 表 的 聚 艇 索引 
和 所 有 二 级 索引 对 应 的 根 页 面 是 哪个 表 空间 的 哪个 页 面 ， 然 后 把 记录 插入 对 应 索引 的 B+ 树 中 。 所 以 说 ，MySQL 
除了 保存 着 我 们 插入 的 用 户 数据 之 外 ， 还 需要 保存 许多 额外 的 信息 ， 比 方 说 : 


。 某 个 表 属于 哪个 表 空间 ， 表 里 边 有 多 少 列 

。 表 对 应 的 每 一 个 列 的 类 型 是 什么 

。 该 表 有 多 少 索 引 ， 每 个 索引 对 应 哪 几 个 字段 ， 该 索引 对 应 的 根 页 面 在 哪个 表 空 间 的 哪个 页 面 
。 该 表 有 哪些 外 键 ， 外 键 对 应 哪个 表 的 哪些 列 

。 基 个 表 空 间 对 应 文件 系统 上 文件 路 径 是 什么 

。 balabala .… 还 有 好 多 ,不 一 一 列举 了 


上 述 这 些 数据 并 不 是 我 们 使 用 INSERT 语句 插入 的 用 户 数 据 ， 实 际 上 是 为 了 更 好 的 管理 我 们 这 些 用 户 数据 而 不 得 
已 引入 的 一 些 额 外 数据 ， 这 些 数据 也 称 为 元 数据 。InnoDB 存 储 引 擎 特意 定义 了 一 些 列 的 内 部 系统 表 (internal 
system table) 来 记录 这 些 这 些 元 数据 : 


表 名 描述 

SYS_TABLES 整个 InnoDB 存 储 引擎 中 所 有 的 表 的 信息 

SYS_COLUMNS 整个 InnoDB 存 储 引擎 中 所 有 的 列 的 信息 

SYS_INDEXES 整个 InnoDB 存 储 引擎 中 所 有 的 索引 的 信息 

SYS_FIELDS 整个 InnoDB 存 储 引擎 中 所 有 的 索引 对 应 的 列 的 信息 

SYS_FOREIGN 整个 InnoDB 存 储 引擎 中 所 有 的 外 键 的 信息 
SYS_FOREIGN_COLS 整个 InnoDB 存 储 引擎 中 所 有 的 外 键 对 应 列 的 信息 
SYS_TABLESPACES 整个 InnoDB 存 储 引擎 中 所 有 的 表 空 间 信息 

SYS_DATAFILES 整个 nnoDB 存 储 引 吏 中 所 有 的 表 空 间 对 应 文件 系统 的 文件 路 径 信息 
SYS_VIRTUAL 整个 InnoDB 存 储 引擎 中 所 有 的 虚拟 生成 列 的 信息 





这 些 系统 表 也 被 称 为 数据 字典 ， 它 们 都 是 以 B+ 树 的 形式 保存 在 系统 表 空 间 的 某 些 页 面 中 ， 其 中 
SYS_TABLES 、 SYS_COLUMNS 、 SYS_INDEXES 、 SYS_FIELDS 这 四 个 表 尤 其 重要 ， 称 之 为 基本 系统 表 (basic 
system tables) ， 我 们 先 看 看 这 4 个 表 的 结构 : 


SYS _TABLES 南 


列 名 


NAME 


SYS_TABLES 表 的 列 


描述 


表 的 名 称 


ID 
N_COLS 
TYPE 
MIX_ID 
MIX_LEN 
CLUSTER_ID 


SPACE 


这 个 SYS_TABLES 表 有 两 个 索引 | : 


。 以 NAME 列 为 主键 的 聚 篮 索引 
。 以 ID 列 建立 的 二 级 索引 


SYS_COLUMNS 责 


InnoDB 存 储 引擎 中 每 个 表 都 有 一 个 唯一 的 ID 
该 表 拥有 列 的 个 数 
表 的 类 型 ， 记 录 了 一 些 文件 格式 、 行 格式 、 压 缩 等 信息 
已 过 时 ， 忽 略 
表 的 一 些 额 外 的 属性 
未 使 用 ， 忽 略 
该 表 所 属 表 空 间 的 ID 


SYS_COLUMNS 表 的 列 


列 名 描述 
TABLE_ID 该 列 所属 表 对 应 的 ID 
POS 该 列 在 表 中 是 第 几 列 
NAME 该 列 的 名 称 
MTYPE main data type， 主 数据 类 型 ， 就 是 那 堆 INT、CHAR、VARCHAR、FLOAT、DOUBLE 之 类 的 东 东 
PRTYPE 。 precise type， 精 确 数据 类 型 ， 就 是 修饰 主 数据 类 型 的 那 堆 东 东 ， 比 如 是 否 允许 NULL 值 ， 是 否 允 许 负数 只 的 
LEN 该 列 最 多 占用 存储 空间 的 字 节 类 
PREC 该 列 的 精度 ， 不 过 这 列 貌 似 都 没有 使 用 ， 默 认 值 都 是 0 


这 个 SYS_COLUMNS 表 只 有 一 个 聚集 索引 : 


。 以 (TABLE_ID，P0S) 列 为 主键 的 聚 簇 索 引 


SYS_INDEXES 责 
SYS_INDEXES 表 的 列 





列 名 描述 
TABLE_ID 该 索引 所 属 表 对 应 的 ID 
ID InnoDB 存 储 引擎 中 每 个 索引 都 有 一 个 唯一 的 ID 
NAME 该 索引 的 名 称 
N_FIELDS 该 索引 包含 列 的 个 数 
TYPE 该 索引 的 类 型 ， 比 如 聚 复 索 引 、 唯 一 索引 、 更 改 缓冲 区 的 索引 、 全 文 索引 、 普 通 的 二 级 索引 等 等 各 种 类 型 
SPACE 该 索引 根 页 面 所 在 的 表 空 间 ID 
PAGE_NO 该 索引 根 页 面 所 在 的 页 面 号 


列 名 描述 
MERGE_THRESHOLD 如 果 页 面 中 的 记录 被 删除 到 某 个 比例 ， 就 把 该 页 面 和 相 邻 页 面 合 并 ， 这 个 值 就 是 这 个 比例 
这 个 SYS_INEXES 表 只 有 一 个 聚集 索引 : 


。 以 (TABLE_ID，ID) 列 为 主键 的 聚 簇 索引 


SYS_FIELDS 南 
SYS_FIELDS 表 的 列 
列 名 描述 
POS 该 索引 列 在 某 个 索引 中 是 第 几 列 
COL_NAME 该 索引 列 的 名 称 





这 个 SYS_INEXES 表 只 有 一 个 聚集 索引 : 


。 以 〈INDEX_ID，P0S) 列 为 主键 的 聚 簇 索 引 


Data Dictionary HeaderRB 


只 要 有 了 上 述 4 个 基本 系统 表 ， 也 就 意味 着 可 以 获取 其 他 系统 表 以 及 用 户 定义 的 表 的 所 有 元 数据 。 比 方 说 我 们 想 
看 看 SYS_TABLESPACES 这 个 系统 表 里 人 存储 了 哪些 表 空 间 以 及 表 空 间 对 应 的 属性 ， 那 就 可 以 : 


。 到 SYS_TABLES 表 中 根据 表 名 定位 到 具体 的 记录 ， 就 可 以 获取 到 SYS_TABLESPACES 表 的 TABLE_ID 

。 使 用 这 个 TABLE_ID 到 SYS_COLUMNS 表 中 就 可 以 获取 到 属于 该 表 的 所 有 列 的 信息 。 

。 使 用 这 个 TABLE_ID 还 可 以 到 SYS_INDEXES 表 中 获取 所 有 的 索引 的 信息 ， 索 引 的 信息 中 包括 对 应 的 
INDEX_ID ， 还 记录 着 该 索引 对 应 的 B+ 数 根 页 面 是 哪个 表 空 间 的 哪个 页 面 。 

。 使 用 INDEX_ID 就 可 以 到 SYS_FIELDS 表 中 获取 所 有 索引 列 的 信息 。 


也 就 是 说 这 4 个 表 是 表 中 之 表 ， 那 这 4 个 表 的 元 数据 去 哪里 获取 呢 ? 没 法 搞 了 ， 只 能 把 这 4 个 表 的 元 数据 ， 就 是 它 
们 有 哪些 列 、 哪 些 索 引 等 信息 硬 编码 到 代码 中 ， 然 后 设计 InnoDB 的 大 叔 又 拿 出 一 个 固定 的 页 面 来 记录 这 4 个 表 的 
聚 徐 索 引 和 二 级 索引 对 应 的 B+ 树 位 置 ， 这 个 页 面 就 是 页 号 为 7 的 页 面 ， 类 型 为 SYS ， 记 录 了 Data Dictionary 
Header ， 也 就 是 数据 字典 的 头 部 信息 。 除 了 这 4 个 表 的 5 个 索引 的 根 页 面 信息 外 ， 这 个 页 号 为 7 的 页 面 还 记录 了 
整个 InnoDB 人 存储 引擎 的 一 些 全 局 属性 ， 说 话 太 吗 嘻 ， 直 接 看 这 个 页 面 的 示意 图 : 


总 共 是 16KB 


Data Dictionary Header 结构 


Max Row ID (8 字 节 ) 
DE EI: )) 
Max Index ID (8 字 节 ) 
Max Space ID (4 字 节 ) 
Ie TCE)) 


Data Dictionary Header 页 结构 示意 图 


File Header 


Data Dictionary Header 


Root of SYS_TABLES clust index (4 字 节 ) 
Root of SYS_TABLE_IDS sec index (4 字 节 ) 
Root of SYS_COLUMNS clust index (4 字 节 ) 
Root of SYS_INDEXES clust index (4 字 节 ) 
Root of SYS_FIELDS clust index (4 字 节 ) 


Unused 


Segment Header 





疆 
Ee Segment Header 结构 


Space ID of the INODE Entry (4 字 节 ) 


Page Number of the INODE Entry (4 字 节 ) 


Byte Offset of the INODE Entry (2 字 节 ) 





File Trailer 





可 以 看 到 这 个 页 面 由 下 边 几 个 部 分 组 成 : 


名 称 中 文 名 PS 简单 描述 
File Header 文件 头 部 38 字 节 页 的 一 些 通用 信息 
Data Dictionary 数据 字典 头 部 信 56 字 节 记录 一 些 基本 系统 表 的 根 页 面 位 置 以 及 InnoDB 存 储 引擎 的 一 些 全 局 
Header 息 言 息 
Segment Header 段 头 部 信息 10 字 节 记录 本 页 面 所 在 段 对 应 的 INODE Entry 位 置信 息 
Empty Space 尚未 使 用 空间 16272 字 节 用 于 页 结构 的 填充 ， 没 喻 实际 意义 
File Trailer 文件 尾部 8 字 节 校 验 页 是 否 完整 


可 以 看 到 这 个 页 面 里 竟然 有 Segment Header 部 分 ， 意 味 着 设计 InnoDB 的 大 叔 把 这 些 有 关 数 据 字 典 的 信息 当成 一 
个 段 来 分 配 存储 空间 ， 我 们 就 姑且 称 之 为 数据 字典 段 吧 。 由 于 目前 我 们 需要 记录 的 数据 字典 信息 非常 少 (可 以 
看 到 Data Dictionary Header 部 分 仅 占 用 了 56 字 节 ) ， 所 以 该 段 只 有 一 个 碎片 页 ， 也 就 是 页 号 为 7 的 这 个 页 。 


接 下 来 我 们 需要 细 细 噶 忠 一 下 Data Dictionary Header 部 分 的 各 个 字段: 


Max Row ID : 我 们 说 过 如 果 我 们 不 显 式 的 为 表 定义 主键 ,而且 表 中 也 没有 UNIQUE 索引 ， 那 么 InnoDB 存储 
引擎 会 默认 为 我 们 生成 一 个 名 为 row_id 的 列 作为 主键 。 因 为 它 是 主键 ， 所 以 每 条 记录 的 row_id 列 的 值 不 能 
重复 。 原 则 上 只 要 一 个 表 中 的 row_id 列 不 重复 就 可 以 了 ， 也 就 是 说 表 a 和 表 b 拥 有 一 样 的 row_id 列 也 没 哈 
关系 ， 不 过 设计 InnoDB 的 大 叔 只 提供 了 这 个 Max Row ID 字段 ， 不 论 哪个 拥有 row_id 列 的 表 插 入 一 条 记录 
时 ， 该 记录 的 row_id 列 的 值 就 是 Max Row ID 对 应 的 值 ， 然 后 再 把 Max Row ID 对 应 的 值 加 1， 也 就 是 说 这 
个 Max Row ID 是 全 局 共享 的 。 

Max Table ID : InnoDB 存 储 引擎 中 的 所 有 的 表 都 对 应 一 个 唯一 的 ID， 每 次 新 建 一 个 表 时 ， 就 会 把 本 字段 的 
值 作为 该 表 的 ID ， 然 后 自 增 本 字段 的 值 。 

Max Index ID : InnoDB 人 存储 引擎 中 的 所 有 的 索引 都 对 应 一 个 唯一 的 ID， 每 次 新 建 一 个 索引 时 ， 就 会 把 本 字 
段 的 值 作 为 该 索引 的 ID ， 然 后 自 增 本 字段 的 值 。 

Max Space ID : InnoDB 人 存储 引擎 中 的 所 有 的 表 空 间 都 对 应 一 个 唯一 的 ID ， 每 次 新 建 一 个 表 空 间 时 ， 就 会 把 
本 字段 的 值 作为 该 表 空间 的 ID， 然 后 自 增 本 字段 的 值 。 

Mix ID Low (Unused) : 这 个 字段 没 哈 用 ， 跳 过 。 

Root of SYS TABLES clust index : 本 字段 代表 SYS_TABLES 表 聚 簇 索引 的 根 页 面 的 页 号 。 





。 Root of SYS TABLE IDS sec index : 本 字段 代表 SYS_TABLES 表 为 ID 列 建 立 的 二 级 索引 的 根 页 面 的 页 


一 


写 。 
。 Root of SYS COLUMNS clust index : 本 字段 代表 SYS_COLUMNS 表 聚 艇 索引 的 根 页 面 的 页 号 。 
。 Root of SYS INDEXES clust index 本 字段 代表 SYS_INDEXES 表 聚 艇 索引 的 根 页 面 的 页 号 。 
。 Root of SYS FIELDS clust index : 本 字段 代表 SYS_FIELDS 表 聚 复 索 引 的 根 页 面 的 页 号 。 


AN 、 放 


。 Unused : 这 4 个 字 节 没 用 ， 跳 过 。 


以 上 就 是 页 号 为 7 的 页 面 的 全 部 内 容 ， 初 次 看 可 能 会 懂 逼 (因为 有 点 儿 绕 ) ， 大 家 多 瞪 几 次 。 





information_scherma 赤 统 妆 妮 以 


需要 注意 一 点 的 是 ， 用 户 是 不 能 直接 访问 InnoDB 的 这 些 内 部 系统 表 的 ， 除 非 你 直接 去 解析 系统 表 空 间 对 应 文件 
系统 上 的 文件 。 不 过 设计 InnoDB 的 大 叔 考虑 到 查看 这 些 表 的 内 容 可 能 有 助 于 大 家 分 析 问 题 ， 所 以 在 系统 数据 库 
information schema 中 提供 了 一 些 以 innodb sys 开头 的 表 : 


mysql> USE information schema; 
Database changed 


mysql> SHOW TABLES LIKE ’ innodb sys% ; 





Tables in information schema (innodb_ sys%) 





ODB_SYS_DATAFILES 
ODB_SYS_VIRTUAL 
ODB_SYS_INDEXES 
ODB_SYS_TABLES 
ODB_SYS_FIELDS 
ODB_SYS_TABLESPACES 
ODB_SYS_FOREILGN_ COLS 
ODB_SYS_COLUMNS 
ODB_SYS_FOREIGN 
ODB_SYS_TABLESTATS 











于 于 对 于 哮 闭 叶 号 口 














10 rows in set (0.00 sec) 


在 information_schema 数据 库 中 的 这 些 以 INNODB_SYS 开头 的 表 并 不 是 真正 的 内 部 系统 表 (内 部 系统 表 就 是 我 们 
上 边 啼 明 的 以 SYS 开头 的 那些 表 ) ， 而 是 在 存储 引 警 启动 时 读 取 这 些 以 SYS 开头 的 系统 表 ， 然 后 填充 到 这 些 以 
INNODB_SYS 开头 的 表 中 。 以 INNODB_SYS 开头 的 表 和 以 SYS 开头 的 表 中 的 字段 并 不 完全 一 样 ， 但 供 大 家 参考 已 
经 足 矣 。 这 些 表 太 多 了 ， 我 就 不 噶 明 了 ， 大 家 自 个 儿 动 手 试 着 查 一 查 这 些 表 中 的 数据 吧 哈 ~ 


9.3.2 总 结 图 


小 册 微 信 交 流 群 2 群 中 一 个 昵称 为 think 同学 非常 有 心 的 为 表 空间 画 了 一 个 全 局 图 ， 和 希望 能 对 各 位 有 帮助 (这 种 
学 习 态 度 实在 让 我 感动 恕 ) : 


























FSP_HDR 类 型 页 结构 示意 图 






































a den tte cosasdssits) 有 这 两 个 字段 指向 XDES Entr 


p> rerio ort tt EE 












































Eg a \ 这 两 个 字段 指 向 XDES Enty 
re] 全 二 必 节 吉 的 指针 

















| 这 三 个 部 分 分 别 对 应 free、notful、ful 
] 链表 的 基 节 点 
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bE ne: 
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| 此 处 共有 32 个 Fragment Array Entry 
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i xDES Enter 
让 链表 关节 点 的 指针 


a 这 两 个 字段 指向 XDES Enter 
鲁 表 尾 节操 的 招 针 





























10 第 10 章 条 条 大 路 通 罗马 - 单 表 访 问 方法 


标签 : _ MySQL 是 怎样 运行 的 


对 于 我 们 这 些 MySQL 的 使 用 者 来 说 ， MySQL 其 实 就 是 一 个 软件 ， 平 时 用 的 最 多 的 就 是 查询 功能 。DBA 时 不 时 丢 
过 来 一 些 慢 查 询 语句 让 优化 ， 我 们 如 果 连 查询 是 怎么 执行 的 都 不 清楚 还 优化 个 毛线 ， 所 以 是 时 候 掌握 真正 的 技术 
了 。 我 们 在 第 一 章 的 时 候 就 曾 说 过 ， MySQL Server 有 一 个 称 为 查询 优化 器 的 模块 ， 一 条 查询 语句 进行 语法 解析 
之 后 就 会 被 交 给 查询 优化 器 来 进行 优化 ， 优 化 的 结果 就 是 生成 一 个 所 谓 的 执行 计划 ， 这 个 执行 计划 表明 了 应 该 
使 用 哪些 索引 进行 查询 ， 表 之 间 的 连接 顺序 是 啥 样 的 ， 最 后 会 按照 执行 计划 中 的 步骤 调用 存储 引擎 提供 的 方法 来 
真正 的 执行 查询 ， 并 将 查询 结果 返回 给 用 户 。 不 过 查询 优化 这 个 主题 有 点 儿 大 ， 在 学 会 跑 之 前 还 得 先 学 会 走 ， 所 
以 本 章 先 来 且 晒 MySQL 怎么 执行 单 表 查 询 (就 是 FROM 子 句 后 边 只 有 一 个 表 ， 最 简单 的 那 种 查询 ~ ) 。 不 过 需 
强调 的 一 点 是 ， 在 学 习 本 章 前 务必 看 过 前 边关 于 记录 结构 、 数 据 页 结构 以 及 索引 的 部 分 ， 如 果 你 不 能 保证 这 些 东 
西 已 经 完全 掌握 ， 那 么 本 章 不 适合 你 。 


为 了 故事 的 顺利 发 展 ， 我 们 先 得 有 个 表 : 


CREATE TABLE single table ( 
id INT NOT NULL AUTO INCREMENT, 
keyl VARCHAR (100) ， 
key2 INT, 
key3 VARCHAR (100) ， 
key partl VARCHAR (100) ， 
key part2 VARCHAR (100) ， 
key part3 VARCHAR(100), 
common field VARCHAR (100), 
PRIMARY KEY (id), 
KEY idx keyl (keyl), 
UNIQUE KEY idx key2 (key2), 
KEY idx key3 (key3), 
KEY idx key part (key partl, key part2, key part3) 
) Engine=InnoDB CHARSET=utf8; 





我 们 为 这 个 single_table 表 建 立 了 1 个 聚 簇 索 引 和 4 个 二 级 索引 ， 分 别 是 : 


。 为 id 列 建立 的 聚 篮 索 引 。 

。 为 keyl 列 建立 的 idx_keyl 二 级 索引 。 

。 为 key2 列 建立 的 idx_key2 二 级 索引 ， 而 且 该 索引 是 唯一 二 级 索引 。 

。 为 key3 列 建 立 的 idx_key3 二 级 索引 。 

。 为 key_partl 、 key part2 、 key_part3 列 建立 的 idx_key_part 二 级 索引 ， 这 也 是 一 个 联合 索引 。 


然后 我 们 需要 为 这 个 表 插 入 10000 行 记录 ， 除 id 列 外 其 余 的 列 都 插入 随机 值 就 好 了 ， 具 体 的 插入 语句 我 就 不 写 
了 ， 自 己 写 个 程序 插入 吧 (id 列 是 自 增 主键 列 ， 不 需要 我 们 手动 插入 ) 。 


10.1 访问 方法 (access method) 的 概念 


想必 各 位 都 用 过 高 德 地 图 来 查找 到 某 个 地 方 的 路 线 吧 (此 处 没有 为 高 德 地 图 打 广 告 的 意思 ， 他 们 没 给 我 钱 ， 大 家 
用 百度 地 图 也 可 以 啊 ) ， 如 果 我 们 搜 西安 钟楼 到 大 雁 塔 之 间 的 路 线 的 话 ， 地 图 软件 会 给 出 n 种 路 线 供 我 们 选择 ， 
如 果 我 们 实在 闲 的 没事 儿 干 并 且 足 够 有 钱 的 话 ， 还 可 以 用 南 辕 北 辐 的 方式 绕 地 球 一 圈 到 达 目 的 地 。 也 就 是 说 ,不 
论 采 用 哪 一 种 方式 ， 我 们 最 终 的 目标 就 是 到 达 大 雁 塔 这 个 地 方 。 回 到 MySQL 中 来 ， 我 们 平时 所 写 的 那些 查询 语句 
本 质 上 只 是 一 种 声明 式 的 语法 ， 只 是 告诉 MySQL 我 们 要 获取 的 数据 符合 哪些 规则 ， 至 于 MySQL 背地 里 是 怎么 把 查 
询 结 果 搞 出 来 的 那 是 MySQL 自己 的 事 儿 。 对 于 单个 表 的 查询 来 说 ， 设 计 MySQL 的 大 叔 把 查询 的 执行 方式 大 致 分 
为 下 边 两 种 : 


。 使 用 全 表 扫描 进行 查询 


这 种 执行 方式 很 好 理解 ， 就 是 把 表 的 每 一 行 记录 都 扫 一 遍 嘛 ， 把 符合 搜索 条 件 的 记录 加 入 到 结果 集 就 完了 。 
` 管 是 哈 查 询 都 可 以 使 用 这 种 方式 执行 ， 当 然 ， 这 种 也 是 最 笨 的 执行 方式 。 
使 用 索引 进行 查询 


因为 直接 使 用 全 表 扫 描 的 方式 执行 查询 要 遍历 好 多 记录 ， 所 以 代价 可 能 太 大 了 。 如 果 查 询 语 句 中 的 搜索 条 件 
可 以 使 用 到 某 个 索引 ， 那 直接 使 用 索引 来 执行 查询 可 能 会 加 快 查询 执行 的 时 间 。 使 用 索引 来 执行 查询 的 方式 
五 花 八 门 ， 又 可 以 细 分 为 许多 种 类 : 

， 针对 主键 或 唯一 二 级 索引 的 等 值 查询 

， 针对 普通 二 级 索引 的 等 值 查询 

” 针对 索引 列 的 范围 查询 

” 直接 扫描 整个 索引 


设计 MySQL 的 大 叔 把 MySQL 执行 查询 语句 的 方式 称 之 为 访问 方法 或 者 访问 类 型 。 同 一 个 查询 语句 可 能 可 以 使 


用 多 种 不 同 的 访问 方法 来 执行 ， 虽 然 最 后 的 查询 结果 都 是 一 样 的， 但 是 执行 的 时 间 可 能 差 老 鼻子 远 了 ， 就 像 是 从 
钟楼 到 大 雁 塔 ， 你 可 以 坐 火箭 去 ， 也 可 以 坐 飞 机 去 ， 当 然 也 可 以 坐 马 龟 去 。 下 边 细 细 道 来 各 种 访问 方法 的 具体 


内 容 。 


10.2 const 
有 的 时 候 我 们 可 以 通过 主键 列 来 定位 一 条 记录 ， 比 方 说 这 个 查询 : 
SELECT * FROM single table WHERE id = 1438; 


MySQL 会 直接 利用 主键 值 在 聚 篮 索 引 中 定位 对 应 的 用 户 记 录 ， 就 像 这 样 : 






聚 族 索引 示意 图 


原谅 我 把 聚 艇 索引 对 应 的 复杂 的 B+ 树 结构 搞 了 一 个 极度 精简 版 ,为 了 突出 重点 ， 我 们 忽略 掉 了 页 的 结构 ， 直 接 
把 所 有 的 叶子 节点 的 记录 都 放 在 一 起 展示 ， 而 且 记 录 中 只 展示 我 们 关心 的 索引 列 ， 对 于 single_table 表 的 聚 簇 
索引 来 说 ， 展 示 的 就 是 id 列 。 我 们 想 突 出 的 重点 就 是 : B+ 树叶 子 节点 中 的 记录 是 按照 索引 列 排序 的 ， 对 于 的 聚 
簇 索 引 来 说 ， 它 对 应 的 B+ 树叶 子 节点 中 的 记录 就 是 按照 id 列 排序 的 。 B+ 树 本 来 就 是 一 个 矮 矮 的 大 胖子 ， 所 以 
这 样 根据 主键 值 定位 一 条 记录 的 速度 贼 快 。 类 似 的 ， 我 们 根据 唯一 二 级 索引 列 来 定位 一 条 记录 的 速度 也 是 贼 快 
的 ， 比 如 下 边 这 个 查询 : 


SELECT x* FROM single table WHERE key2 = 3841; 


这 个 查询 的 执行 过 程 的 示意 图 就 是 这 样 : 








key2 = 3841 


idx_key2 索 引 示 意图 


key2 值 增 长 方向 


聚 徐 索 引 示 意图 和 


= 四 | 


id 值 增长 方向 


步骤 1: 先 从 idx_key2 索 
引 中 定位 key2 = 3841 
的 记录 ， 找 到 对 应 的 id 
列 的 值 











步骤 2: 再 从 聚 簇 索 引 中 
根据 上 一 步 得 到 的 id 
值 

找到 完整 的 用 户 记 录 





可 以 看 到 这 个 查询 的 执行 分 两 步 ， 第 一 步 先 从 idx_key2 对 应 的 B+ 树 索引 中 根据 key2 列 与 常数 的 等 值 比较 条 件 
定位 到 一 条 二 级 索引 记录 ， 然 后 再 根据 该 记录 的 id 值 到 聚 复 索 引 中 获取 到 完整 的 用 户 记录 。 


设计 MySQL 的 大 叔 认 为 通过 主键 或 者 唯一 二 级 索引 列 与 常数 的 等 值 比较 来 定位 一 条 记录 是 像 坐 火箭 一 样 快 的， 所 
以 他 们 把 这 种 通过 主键 或 者 唯一 二 级 索引 列 来 定位 一 条 记录 的 访问 方法 定义 为 : const ， 意 思 是 常数 级 别 的 ， 代 
价 是 可 以 忽略 不 计 的 。 不 过 这 种 const 访问 方法 只 能 在 主键 列 或 者 唯一 二 级 索引 列 和 一 个 常数 进行 等 值 比较 时 才 
有 效 ， 如 果 主 键 或 者 唯一 二 级 索引 是 由 多 个 列 构成 的 话 ， 索 引 中 的 每 一 个 列 都 需要 与 常数 进行 等 值 比 较 ， 这 个 
const 访问 方法 才 有 效 (这 是 因为 只 有 该 索引 中 全 部 列 都 采用 等 值 比 较 才 可 以 定位 唯一 的 一 条 记录 ) 。 


对 于 唯一 二 级 索引 来 说 ， 查 询 该 列 为 NULL 值 的 情况 比较 特殊 ， 比 如 这 样 : 
SELECT x*¥ FROM single table WHERE key2 IS NULL; 
因为 唯一 二 级 索引 列 并 不 限制 NULL 值 的 数量 ， 所 以 上 述 语句 可 能 访问 到 多 条 记录 ， 也 就 是 说 上 边 这 个 语句 不 可 
以 使 用 const 访问 方法 来 执行 (至 于 是 什么 访问 方法 我 们 下 边 马上 说 ) 。 
10.3 ref 
有 了 时候 我 们 对 某 个 普通 的 二 级 索引 列 与 常数 进行 等 值 比较 ， 比 如 这 样 : 
SELECT x* FROM single table WHERE keyl = ’ abe’; 


对 于 这 个 查询 ， 我 们 当然 可 以 选择 全 表 扫 描 来 逐一 对 比 搜索 条 件 是 否 满足 要 求 ， 我 们 也 可 以 先 使 用 二 级 索引 找到 
对 应 记录 的 id 值 ， 然 后 再 回 表 到 聚 艇 索引 中 查找 完整 的 用 户 记录 。 由 于 普通 二 级 索引 并 不 限制 索引 列 值 的 唯一 
性 ， 所 以 可 能 找到 多 条 对 应 的 记录 ， 也 就 是 说 使 用 二 级 索引 来 执行 查询 的 代价 取决 于 等 值 匹 配 到 的 二 级 索引 记录 


条 数 。 如 果 匹 配 的 记录 较 少 ， 则 回 表 的 代价 还 是 比较 低 的 ， 所 以 MySQL 可 能 选择 使 用 索引 而 不 是 全 表 扫 描 的 方式 
来 执行 查询 。 设 计 MySQL 的 大 叔 就 把 这 种 搜索 条 件 为 二 级 索引 列 与 常数 等 值 比较 ， 采 用 二 级 索引 来 执行 查询 的 访 
问 方法 称 为 : ref 。 我 们 看 一 下 采用 ref 访问 方法 执行 查询 的 图 示 : 






key1 = "abc'” 


idx_key1 索 引 示 意图 


步骤 1: 先 从 idx_key1 索 引 中 定 
位 key1 = "abc' 的 记录 ， 这 


些 记录 是 连续 的 ， 然 后 找到 这 
些 记 录 对 应 的 id 列 的 值 






pa 7 
一 步 得 到 的 一 系列 id 值 找 到 完 
整 的 用 户 记 录 


id 值 增长 方向 


从 图 示 中 可 以 看 出 ， 对 于 普通 的 二 级 索引 来 说 ， 通 过 索引 列 进行 等 值 比较 后 可 能 匹配 到 多 条 连续 的 记录 ， 而 不 是 
像 主键 或 者 唯一 二 级 索引 那样 最 多 只 能 匹配 1 条 记录 ， 所 以 这 种 ref 访问 方法 比 const 差 了 那么 一 丢 丢 ,但 是 在 
二 级 索引 等 值 比较 时 匹配 的 记录 数 较 少时 的 效率 还 是 很 高 的 (如果 匹 配 的 二 级 索引 记录 太 多 那么 回 表 的 成 本 就 太 
大 了 ) ， 跟 坐 高 铁 差不多 。 不 过 需要 注意 下 边 两 种 情况 : 


二 级 索引 列 值 为 NULL 的 情况 


不 论 是 普通 的 二 级 索引 ， 还 是 唯一 二 级 索引 ， 它 们 的 索引 列 对 包含 NULL 值 的 数量 并 不 限制 ， 所 以 我 们 采用 
key IS NULL 这 种 形式 的 搜索 条 件 最 多 只 能 使 用 ref 的 访问 方法 ， 而 不 是 const 的 访问 方法 。 

。 对 于 某 个 包含 多 个 索引 列 的 二 级 索引 来 说 ， 只 要 是 最 左边 的 连续 索引 列 是 与 常数 的 等 值 比较 就 可 能 采用 ref 
的 访问 方法 ， 比 方 说 下 边 这 几 个 查询 : 


SELECT x* FROM single table WHERE key partl = ’ god like’: 


SELECT x* FROM single table WHERE key partl = ’ god like” AND key part2 = ’ legendary : 


SELECT x* FROM single table WHERE key partl = ’god like” AND key part2 = ’ legendary 
AND key part3 = ’ penta kill’; 


但 是 如 果 最 左边 的 连续 索引 列 并 不 全 部 是 等 值 比较 的 话 ， 它 的 访问 方法 就 不 能 称 为 ref 了 ， 比 方 说 这 样 : 





SELECT x* FROM single table WHERE key partl = ’god like”AND key part2 > ’ legendary : 


10.4 ref or_null 


有 时 候 我 们 不 仅 想 找 出 某 个 二 级 索引 列 的 值 等 于 某 个 常数 的 记录 ， 还 想 把 该 列 的 值 为 NULL 的 记录 也 找 出 
来 ， 就 像 下 边 这 个 查询 : 


SELECT x* FROM single demo WHERE keyl = “abc” OR keyl IS NULL; 


当 使 用 二 级 索引 而 不 是 全 表 扫 描 的 方式 执行 该 查询 时 ， 这 种 类 型 的 查询 使 用 的 访问 方法 就 称 为 
ref or null ， 这 个 ref_or_null 访问 方法 的 执行 过 程 如 下 : 


"abc’” OR 


key1 IS NULL 


步骤 1: 先 从 idx_key1 索 引 中 分 别 
定位 key1 = 'abc' 和 key1 1S 


NULL 的 连续 记录 ， 然 后 找到 这 些 
记录 对 应 的 id 列 的 值 





步骤 2: 再 从 聚 车 索引 中 根据 上 


一 步 得 到 的 一 系列 id 值 找到 完 
整 的 用 户 记录 





id 值 增 长 方向 


可 以 看 到 ， 上 边 的 查询 相当 于 先 分 别 从 idx_keyl 索引 对 应 的 B+ 树 中 找 出 keyl IS NULL 和 keyl =“" abc” 的 两 
个 连续 的 记录 范围 ， 然 后 根据 这 些 二 级 索引 记录 中 的 id 值 再 回 表 查找 完整 的 用 户 记 录 。 
10.5 range 


我 们 之 前 介绍 的 几 种 访问 方法 都 是 在 对 索引 列 与 某 一 个 常数 进行 等 值 比 较 的 时 候 才 可 能 使 用 到 ( ref or null 比 
较 奇 特 ， 还 计算 了 值 为 NULL 的 情况 ) ， 但 是 有 时 候 我 们 面 对 的 搜索 条 件 更 复杂 ， 比 如 下 边 这 个 查询 : 


SELECT x* FROM single table WHERE key2 IN (1438, 6328) OR (key2 >= 38 AND key2 <= 79); 


我 们 当然 还 可 以 使 用 全 表 扫 描 的 方式 来 执行 这 个 查询 ， 不 过 也 可 以 使 用 二 级 索引 + 回 表 的 方式 执行 ， 如 果 采 
用 二 级 索引 + 回 表 的 方式 来 执行 的 话 ， 那 么 此 时 的 搜索 条 件 就 不 只 是 要 求索 引 列 与 常数 的 等 值 匹 号 了 ， 而 是 索 
引 列 需要 匹配 某 个 或 某 些 范围 的 值 ， 在 本 查询 中 key2 列 的 值 只 要 匹配 下 列 3 个 范围 中 的 任何 一 个 就 算是 匹配 成 功 


本 


。 key2 的 值 是 1438 
。 key2 的 值 是 6328 
。 key2 的 值 在 38 和 79 之 间 。 


设计 MySQL 的 大 下 把 这 种 利用 索引 进行 范围 匹配 的 访问 方法 称 之 为 : range 。 


小 贴 士 : 
此 处 所 说 的 使 用 索引 进行 范围 区 配 中 的 ”索引 ”可 以 是 聚 簇 索引 ， 也 可 以 是 二 级 索引 。 


如 果 把 这 几 个 所 谓 的 key2 列 的 值 需要 满足 的 范围 在 数 轴 上 体现 出 来 的 话 ， 那 应 该 是 这 个 样子 : 






































38 79 1438 6328 key2 


也 就 是 从 数学 的 角度 看 ， 每 一 个 所 谓 的 范围 都 是 数 轴 上 的 一 个 区 间 ，3 个 范围 也 就 对 应 着 3 个 区 间 : 


。 范围 1: key2 = 1438 
。 范围 2: key2 = 6328 
。 范围 3: key2 E [38，79] ， 注 意 这 里 是 闭 区 间 。 


我 们 可 以 把 那 种 索引 列 等 值 匹配 的 情况 称 之 为 单 点 区 间 ， 上 边 所 说 的 范围 1 和 范围 2 都 可 以 被 称 为 单 点 区 间 ， 
像 范围 3 这 种 的 我 们 可 以 称 为 连续 范围 区 间 。 











10.6 index 
看 下 边 这 个 查询 : 
SELECT key partl, key part2, key part3 FROM single table WHERE key part2 = "abe’; 


由 于 key_part2 并 不 是 联合 索引 idx_key_part 最 左 索 引 列 ， 所 以 我 们 无 法 使 用 ref 或 者 range 访问 方法 来 执行 
这 个 语句 。 但 是 这 个 查询 符合 下 边 这 两 个 条 件 : 

。 它 的 查询 列表 只 有 3 个 列 : key_partl ，key_part2 ，key_part3 ， 而 索引 idx_key_part 又 包含 这 三 个 列 。 

。 搜索 条 件 中 只 有 key_part2 列 。 这 个 列 也 包含 在 索引 idx_key_part 中 。 


也 就 是 说 我 们 可 以 直接 通过 遍历 idx_key_part 索引 的 叶子 节点 的 记录 来 比较 key_part2 =“abc” 这 个 条 件 是 否 
成 立 ， 把 匹配 成 功 的 二 级 索引 记录 的 key_partl ，key_part2 ，key_part3 列 的 值 直接 加 到 结果 集中 就 行 了 。 由 
于 二 级 索引 记录 比 聚 簇 索 记录 小 的 多 ( 聚 簇 索引 记录 要 存储 所 有 用 户 定 义 的 列 以 及 所 谓 的 隐藏 列 ， 而 二 级 索引 记 
录 只 需要 存放 索引 列 和 主键 ) ， 而 且 这 个 过 程 也 不 用 进行 回 表 操 作 ， 所 以 直接 遍历 二 级 索引 比 直接 遍历 聚 艇 索引 
的 成 本 要 小 很 多 ， 设 计 MySQL 的 大 叔 就 把 这 种 采用 遍历 二 级 索引 记录 的 执行 方式 称 之 为 : index 。 


10.7 all 


最 直接 的 查询 执行 方式 就 是 我 们 已 经 提 了 无 数 遍 的 全 表 扫 描 ， 对 于 InnoDB 表 来 说 也 就 是 直接 扫描 聚 簇 索 引 ， 设 
计 MySQL 的 大 叔 把 这 种 使 用 全 表 扫 描 执行 查询 的 方式 称 之 为 : all 。 


10.8 注意 事项 


10.8.1 重 温 二 级 索引 + 回 表 

一 般 情 况 下 只 能 利用 单个 二 级 索引 执行 查询 ， 比 方 说 下 边 的 这 个 查询 : 
SELECT * FROM single table WHERE keyl = "abc”AND key2 > 1000; 

查询 优化 器 会 识别 到 这 个 查询 中 的 两 个 搜索 条 件 : 


。 keyl = "abce’ 
。 key2 > 1000 


优化 器 一 般 会 根据 single_table 表 的 统计 数据 来 判断 到 底 使 用 哪个 条 件 到 对 应 的 二 级 索引 中 查询 扫描 的 行 数 会 

更 少 ， 选 择 那 个 扫描 行 数 较 少 的 条 件 到 对 应 的 二 级 索引 中 查询 (关于 如 何 比较 的 细节 我 们 后 边 的 章节 中 会 哎 

外) 。 然 后 将 从 该 二 级 索引 中 查询 到 的 结果 经 过 回 表 得 到 完整 的 用 户 记录 后 再 根据 其 余 的 WHERE 条 件 过 滤 记 录 。 

一 般 来 说 ， 等 值 查找 比 范 围 查找 需要 扫描 的 行 数 更 少 (也 就 是 ref 的 访问 方法 一 般 比 range 好 ， 但 这 也 不 总 是 一 

定 的 ， 也 可 能 采用 ref 访问 方法 的 那个 索引 列 的 值 为 特定 值 的 行 数 特别 多 ) ， 所 以 这 里 假设 优化 器 决定 使 用 
idx_keyl 索引 进行 查询 ， 那 么 整个 查询 过 程 可 以 分 为 两 个 步 又: 


。 步骤 1: 使 用 二 级 索引 定位 记录 的 阶段 ， 也 就 是 根据 条 件 keyl = “abc ”从 idx keyl 索引 代表 的 B+ 树 中 找 
到 对 应 的 二 级 索引 记录 。 

步骤 2: 回 表 阶 段 ， 也 就 是 根据 上 一 步骤 中 找到 的 记录 的 主键 值 进行 回 表 操作 ， 也 就 是 到 聚 簇 索 引 中 找到 对 
应 的 完整 的 用 户 记 录 ， 再 根据 条 件 key2 > 1000 到 完整 的 用 户 记 录 继 续 过 滤 。 将 最 终 符 合 过 滤 条 件 的 记录 返 
回 给 用 户 。 


这 里 需要 特别 提醒 大 家 的 一 点 是 ， 因 为 二 级 索引 的 节点 中 的 记录 只 包含 索引 列 和 主键 ， 所 以 在 步骤 1 中 使 用 
idx_keyl 索引 进行 查询 时 只 会 用 到 与 keyl 列 有 关 的 搜索 条 件 ， 其 余 条 件 ， 比 如 key2 > 1000 这 个 条 件 在 步骤 1 
中 是 用 不 到 的 ， 只 有 在 步骤 2 完成 回 表 操作 后 才能 继续 针对 完整 的 用 户 记 录 中 继续 过 滤 。 
小 贴 士 : 
需要 注意 的 是 ， 我 们 说 一 般 情 况 下 执行 一 个 查询 只 会 用 到 单个 二 级 索引 ， 不 过 还 是 有 特殊 情况 的 ， 我 们 
后 边 会 详细 啼 叫 的 。 




















10.8.2 明确 range 访 问 方法 使 用 的 范围 区 间 


其 实 对 于 B+ 树 索引 来 说 ， 只 要 索引 列 和 常数 使 用 = 、 <=> 、IN、 NOT IN、 IS NULL 、 IS NOT NULL 、 
>、《、 和 冯 、 千 、BETWEEN 、!= (不 等 于 也 可 以 写成 《> ) 或 者 LIKE 操作 符 连 接 起 来 ， 就 可 以 产生 一 个 所 
谓 的 区 间 。 


小 贴 士 : 

LIKE 操 作 符 比较 特殊 ， 只 有 在 匹配 完整 字符 串 或 者 匹配 字符 串 前 级 时 才 可 以 利用 索引 ， 具 体 原因 我 们 在 
前 边 的 章节 中 啼 明 过 了 ， 这 里 就 不 袭 述 了 。 

IN 操 作 符 的 效果 和 若干 个 等 值 匹 配 操作 符 = 之 间 用 OR 连接 起 来 是 一 样 的， 也 就 是 说 会 产生 多 个 单 点 
区 间 ， 比 如 下 边 这 两 个 语句 的 效果 是 一 样 的 : 

SELECT x* FROM single table WHERE key2 IN (1438，6328) ; 

SELECT x* FROM single table WHERE key2 = 1438 OR key2 = 6328; 




































































不 过 在 日 常 的 工作 中 ， 一 个 查询 的 WHERE 子 句 可 能 有 很 多 个 小 的 搜索 条 件 ， 这 些 搜 索 条 件 需要 使 用 AND 或 者 OR 
操作 符 连 接 起 来 ， 虽 然 大 家 都 知道 这 两 个 操作 符 的 作用 ， 但 我 还 是 要 再 说 一 遍 : 


。 condl AND cond2 : 只 有 当 condl 和 cond2 都 为 TRUE 时 整个 表达 式 才 为 TRUE 。 
。 condl OR cond2 : 只 要 condl 或 者 cond2 中 有 一 个 为 TRUE 整个 表达 式 就 为 TRUE 。 


当 我 们 想 使 用 range 访问 方法 来 执行 一 个 查询 语句 时 ， 重 点 就 是 找 出 该 查询 可 用 的 索引 以 及 这 些 索引 对 应 的 学 围 
区 间 。 下 边 分 两 种 情况 看 一 下 怎么 从 由 AND 或 OR 组 成 的 复杂 搜索 条 件 中 提取 出 正确 的 范围 区 间 。 


10.8.2.1 所 有 搜索 条 件 都 可 以 使 用 某 个 索引 的 情况 
有 时 候 每 个 搜索 条 件 都 可 以 使 用 到 某 个 索引 ， 比 如 下 边 这 个 查询 语句 : 
SELECT * FROM single table WHERE key2 > 100 AND key2 > 200; 


这 个 查询 中 的 搜索 条 件 都 可 以 使 用 到 key2 ， 也 就 是 说 每 个 搜索 条 件 都 对 应 着 一 个 idx_key2 的 范围 区 间 。 这 两 个 
小 的 搜索 条 件 使 用 AND 连接 起 来 ， 也 就 是 要 取 两 个 范围 区 间 的 交集 ， 在 我 们 使 用 range 访问 方法 执行 查询 时 ,使 
用 的 idx_key2 索引 的 范围 区 间 的 确定 过 程 就 如 下 图 所 示 : 


key2 > 100 和 key2 > 200 取 交集 
的 结果 自然 是 key2 > 200 


100 200 key2 
key2 》100 和 key2 》200 交集 当然 就 是 key2 》200 了 ， 也 就 是 说 上 边 这 个 查询 使 用 idx_key2 的 范围 区 间 就 


是 (200，+%) 。 这 东西 小 学 都 学 过 吧 ， 再 不 济 初中 肯定 都 学 过 。 我 们 再 看 一 下 使 用 OR 将 多 个 搜索 条 件 连 接 在 一 
起 的 情况 : 


SELECT * FROM single table WHERE key2 > 100 OR key2 > 200; 


OR 意味 着 需要 取 各 个 范围 区 间 的 并 集 ， 所 以 上 边 这 个 查询 在 我 们 使 用 range 访问 方法 执行 查询 时 ， 使 用 的 
idx_key2 索引 的 范围 区 间 的 确定 过 程 就 如 下 图 所 示 : 


key2 > 100 和 key2 > 200 取 并 集 
的 结果 自然 是 key2 > 100 


100 200 key2 


也 就 是 说 上 边 这 个 查询 使 用 idx_key2 的 范围 区 间 就 是 (100， +c) 。 


10.8.2.2 有 的 搜索 条 件 无 法 使 用 索引 的 情况 
比如 下 边 这 个 查询 : 
SELECT x* FROM single table WHERE key2 > 100 AND common field = "abe’; 


请 注意 ， 这 个 查询 语句 中 能 利用 的 索引 只 有 idx_key2 一 个 ， 而 idx_key2 这 个 二 级 索引 的 记录 中 又 不 包含 
common _ field 这 个 字段 ， 所 以 在 使 用 二 级 索引 idx_key2 定位 记录 的 阶段 用 不 到 common field = abc” 这 个 条 
件 ， 这 个 条 件 是 在 回 表 获 取 了 完整 的 用 户 记 录 后 才 使 用 的 ， 而 范围 区 间 是 为 了 到 索引 中 取 记 录 中 提出 的 概念 ， 








所 以 在 确定 范围 区 间 的 时 候 不 需要 考虑 common field = “abc ”这 个 条 件 ， 我 们 在 为 某 个 索引 确定 范围 区 间 的 时 
候 只 需要 把 用 不 到 相关 索引 的 搜索 条 件 蔡 换 为 TRUE 就 好 了 。 


小 贴 士 : 
之 所 以 把 用 不 到 索引 的 搜索 条 件 替 换 为 TRUE， 是 因为 我 们 不 打算 使 用 这 些 条 件 进 行 在 该 索引 上 进行 过 
滤 ， 所 以 不 管 索引 的 记录 满 不 满 足 这 些 条 件 ， 我 们 都 把 它们 选取 出 来 ， 待 到 之 后 回 表 的 时 候 再 使 用 它们 


我 们 把 上 边 的 查询 中 用 不 到 idx_key2 的 搜索 条 件 蔡 换 后 就 是 这 样 : 


SELECT x* FROM single table WHERE key2 > 100 AND TRUE; 



















































































化 简 之 后 就 是 这 样 : 
SELECT * FROM single table WHERE key2 > 100; 
也 就 是 说 最 上 边 那 个 查询 使 用 idx_key2 的 范围 区 间 就 是 : (100，+%) 。 
再 来 看 一 下 使 用 OR 的 情况 : 
SELECT # FROM single table WHERE key2 > 100 OR common field = "abc ; 
同 理 ， 我 们 把 使 用 不 到 idx_key2 索引 的 搜索 条 件 替 换 为 TRUE : 
SELECT * FROM single table WHERE key2 > 100 OR TRUE; 
接着 化 简 : 
SELECT * FROM single table WHERE TRUE; 


额 ， 这 也 就 说 说 明 如 果 我 们 强制 使 用 idx_key2 执行 查询 的 话 ， 对 应 的 范围 区 间 就 是 (-，+%) ， 也 就 是 需要 将 
全 部 二 级 索引 的 记录 进行 回 表 ， 这 个 代价 肯定 比 直接 全 表 扫 描 都 大 了 。 也 就 是 说 一 个 使 用 到 索引 的 搜索 条 件 和 没 
有 使 用 该 索引 的 搜索 条 件 使 用 OR 连接 起 来 后 是 无 法 使 用 该 索引 的 。 


10.8.2.3 复杂 搜索 条 件 下 找 出 范围 匹配 的 区 间 
有 的 查询 的 搜索 条 件 可 能 特别 复杂 ， 光 是 找 出 范围 匹配 的 各 个 区 间 就 挺 烦 的 ， 比 方 说 下 边 这 个 : 


SELECT * FROM single _ table WHERE 
(keyl > ’xyz” AND key2 = 748 ) OR 
(keyl < "abc” AND keyl > ’ lmn’ ) OR 
(keyl LIKE ’%suf’” AND keyl > ’zzz AND (key2 < 8000 OR common field = “abc )) ; 


我 滴 个 神 ， 这 个 搜索 条 件 真是 绝 了 ， 不 过 大 家 不 要 被 复杂 的 表象 迷 住 了 双眼 ， 按 着 下 边 这 个 套路 分 析 一 下 : 
。 首先 查看 WHERE 子 句 中 的 搜索 条 件 都 涉及 到 了 哪些 列 ， 哪 些 列 可 能 使 用 到 索引 。 


这 个 查询 的 搜索 条 件 涉及 到 了 keyl 、 key2 、 common field 这 3 个 列 ,然后 keyl 列 有 普通 的 二 级 索引 
idx keyl ， key2 列 有 唯一 二 级 索引 idx key2 。 
。 对 于 那些 可 能 用 到 的 索引 ， 分 析 它 们 的 范围 区 间 。 
” 假设 我 们 使 用 idx_keyl 执行 查询 
。 我 们 需要 把 那些 用 不 到 该 索引 的 搜索 条 件 暂 时 移 除 掉 ， 移 除 方法 也 简单 ， 直 接 把 它们 替换 为 TRUE 
就 好 了 。 上 边 的 查询 中 除了 有 关 key2 和 common_field 列 不 能 使 用 到 idx_keyl 索引 外 ， keyl 
LIKE“%suf” 也 使 用 不 到 索引 ， 所 以 把 这 些 搜索 条 件 蔡 换 为 TRUE 之 后 的 样子 就 是 这 样 : 


(keyl > ’xyz” AND TRUE ) OR 
(keyl < ”abc” AND keyl > ’ lmn’ ) OR 
(TRUE AND keyl > ’zzz” AND (TRUE OR TRUE)) 


化 简 一 下 上 边 的 搜索 条 件 就 是 下 边 这 样 : 


(keyl > ’ xyz ) OR 
(keyl < ’abc’” AND keyl > ’ lmn’ ) OR 
(keyl > "zzz ”) 


替换 掉 永远 为 TRUE 或 FALSE 的 条 件 
因为 符合 keyl < "abc ”AND keyl > ”lmn 永远 为 FALSE ， 所 以 上 边 的 搜索 条 件 可 以 被 写成 这 样 : 


O 


(keyl > XyZ ) OR (keyl > ’ zzz) 
继续 化 简 区 间 


keyl > “xyz” 和 keyl > “zzz” 之 间 使 用 OR 操作 符 连 接 起 来 的 ， 意 味 着 要 取 并 集 ， 所 以 最 终 的 结 
果 化 简 的 到 的 区 间 就 是 : keyl > xyz 。 也 就 是 说 : 上 边 那个 有 一 比 搜 索 条 件 的 查询 语句 如 果 使 用 
idx_key1 索引 执行 查询 的 话 ， 需 要 把 满足 keyl > xyz 的 二 级 索引 记录 都 取出 来 ， 然 后 拿 着 这 些 记 
录 的 id 再 进行 回 表 ， 得 到 完整 的 用 户 记 录 之 后 再 使 用 其 他 的 搜索 条 件 进行 过 滤 。 
。 假设 我 们 使 用 idx_key2 执行 查询 
。 我 们 需要 把 那些 用 不 到 该 索引 的 搜索 条 件 暂时 使 用 TRUE 条 件 蔡 换 掉 ， 其 中 有 关 keyl 和 
comon field 的 搜索 条 件 都 需要 被 替换 掉 ， 蔡 换 结果 就 是 : 


oo 


(TRUE AND key2 = 748 ) OR 
(TRUE AND TRUE) OR 
(TRUE AND TRUE AND (key2 < 8000 OR TRUE)) 





哎呀 呀 ，key2《“ 8000 OR TRUE 的 结果 肯定 是 TRUE 呀 ， 也 就 是 说 化 简 之 后 的 搜索 条 件 成 这 样 了 : 
key2 = 748 OR TRUE 
这 个 化 简 之 后 的 结果 就 更 简单 了 : 
TRUE 
这 个 结果 也 就 意味 着 如 果 我 们 要 使 用 idx_key2 索引 执行 查询 语句 的 话 ， 需 要 扫描 idx_key2 二 级 索 
引 的 所 有 记录 ， 然 后 再 回 表 ， 这 不 是 得 不 偿 失 么 ， 所 以 这 种 情况 下 不 会 使 用 idx_key2 索引 的 。 


10.8.3 索引 合并 

我 们 前 边 说 过 MySQL 在 一 般 情况 下 执行 一 个 查询 时 最 多 只 会 用 到 单个 二 级 索引 ， 但 不 是 还 有 特殊 情况 么 ， 在 这 些 
特殊 情况 下 也 可 能 在 一 个 查询 中 使 用 到 多 个 二 级 索引 ， 设 计 MySQL 的 大 叔 把 这 种 使 用 到 多 个 索引 来 完成 一 次 查询 
的 执行 方法 称 之 为 : index merge ， 有 具体 的 索引 合并 算法 有 下 边 三 种 。 

10.8.3.1 Intersection 合 并 


Intersection 翻译 过 来 的 意思 是 交集 。 这 里 是 说 某 个 查询 可 以 使 用 多 个 二 级 索引 ， 将 从 多 个 二 级 索引 中 查询 到 
的 结果 取 交 集 ， 比 方 说 下 边 这 个 查询 : 


SELECT x* FROM single table WHERE keyl = "a AND key3 = ”pb ; 
假设 这 个 查询 使 用 Intersection 合并 的 方式 执行 的 话 ， 那 这 个 过 程 就 是 这 样 的 : 
。 从 idx keyl 二 级 索引 对 应 的 B+ 树 中 取出 keyl =“a ”的 相关 记录 。 


。 从 idx_key3 二 级 索引 对 应 的 B+ 树 中 取出 key3 =“b ”的 相关 记录 。 

。 二 级 索引 的 记录 都 是 由 索引 列 + 主键 构成 的 ， 所 以 我 们 可 以 计算 出 这 两 个 结果 集中 id 值 的 交集 。 

。 按照 上 一 步 生成 的 id 值 列表 进行 回 表 操作 ， 也 就 是 从 聚 艇 索引 中 把 指定 id 值 的 完整 用 户 记录 取出 来 ， 返 回 
给 用 户 。 


这 里 有 同学 会 思考 : 为 喻 不 直接 使 用 idx keyl 或 者 idx_key3 只 根据 某 个 搜索 条 件 去 读 取 一 个 二 级 索引 ， 然 后 回 
表 后 再 过 滤 另 外 一 个 搜索 条 件 呢 ” 这 里 要 分 析 一 下 两 种 查询 执行 方式 之 间 需 要 的 成 本 代价 。 


只 读 取 一 个 二 级 索引 的 成 本 : 


。 按照 某 个 搜索 条 件 读 取 一 个 二 级 索引 
。 根据 从 该 二 级 索引 得 到 的 主键 值 进行 回 表 操作 ， 然 后 再 过 滤 其 他 的 搜索 条 件 


读 取 多 个 二 级 索引 之 后 取 交 集成 本 : 


。 按照 不 同 的 搜索 条 件 分 别 读 取 不 同 的 二 级 索引 
。 将 从 多 个 二 级 索引 得 到 的 主键 值 取 交集 ， 然 后 进行 回 表 操作 


虽然 读 取 多 个 二 级 索引 比 读 取 一 个 二 级 索引 消耗 性 能 ,但 是 读 取 二 级 索引 的 操作 是 顺序 I/0 ， 而 回 表 操作 是 随 
机 1/0 ， 所 以 如 果 只 读 取 一 个 二 级 索引 时 需要 回 表 的 记录 数 特别 多 ， 而 读 取 多 个 二 级 索引 之 后 取 交 集 的 记录 数 非 
常 少 ， 当 节省 的 因为 回 表 而 造成 的 性 能 损耗 比 访问 多 个 二 级 索引 带 来 的 性 能 损耗 更 高 时 ， 读 取 多 个 二 级 索引 后 
取 交 集 比 只 读 取 一 个 二 级 索引 的 成 本 更 低 。 


MySQL 在 某 些 特定 的 情况 下 才 可 能 会 使 用 到 Intersection 索引 合并 : 


。 情况 一 : 二 级 索引 列 是 等 值 匹 配 的 情况 ， 对 于 联合 索引 来 说 ， 在 联合 索引 中 的 每 个 列 都 必须 等 值 匹 配 ， 不 能 
出 现 只 出 现 匹 配 部 分 列 的 情况 。 


比方 说 下 边 这 个 查询 可 能 用 到 idx_keyl 和 idx_key_part 这 两 个 二 级 索引 进行 Intersection 索引 合并 的 操 
作 : 


SELECT x* FROM single table WHERE keyl = "a AND key partl = "a AND key part2 = ’"b’ 
AND key part3 = c |; 








而 下 边 这 两 个 查询 就 不 能 进行 Intersection 索引 合并 : 


SELECT x* FROM single _ table WHERE keyl > "a AND key partl = a AND key part2 = ’"b’ 
AND key part3 = c ; 


SELECT x* FROM single table WHERE keyl = a AND key partl = a ;| 


第 一 个 查询 是 因为 对 keyl 进行 了 范围 匹配 ， 第 二 个 查询 是 因为 联合 索引 idx_key_part 中 的 key_part2 列 
并 没有 出 现在 搜索 条 件 中 ， 所 以 这 两 个 查询 不 能 进行 Intersection 索引 合并 。 
情况 二 : 主键 列 可 以 是 范围 匹配 


比方 说 下 边 这 个 查询 可 能 用 到 主键 和 idx_keyl 进行 Intersection 索引 合并 的 操作 : 


SELECT x* FROM single _ table WHERE id > 100 AND keyl = "a 


为 啥 呢 ” 赁 喻 呀 ”突然 冒 出 这 么 两 个 规定 让 大 家 一 脸 懂 逼 ， 下 边 我 们 慢 慢 品 一 品 这 里 头 的 玄机 。 这 话 还 得 从 
InnoDB 的 索引 结构 说 起 ， 你 要 是 记 不 清 麻烦 再 回头 看 看 。 对 于 InnoDB 的 二 级 索引 来 说 ， 记 录 先 是 按照 索引 列 进 
行 排序 ， 如 果 该 二 级 索引 是 一 个 联合 索引 ， 那 么 会 按照 联合 索引 中 的 各 个 列 依次 排序 。 而 二 级 索引 的 用 户 记 录 是 
由 索引 列 + 主键 构成 的 ， 二 级 索引 列 的 值 相 同 的 记录 可 能 会 有 好 多 条 ， 这 些 索引 列 的 值 相同 的 记录 又 是 按照 
主键 的 值 进行 排序 的 。 所 以 重点 来 了 ， 之 所 以 在 二 级 索引 列 都 是 等 值 匹配 的 情况 下 才 可 能 使 用 Intersection 索 
引 合并 ， 是 因为 只 有 在 这 种 情况 下 根据 二 级 索引 查询 出 的 结果 集 是 按照 主键 值 排序 的 。 











so? 还 是 没 看 懂 根 据 二 级 索引 查询 出 的 结果 集 是 按照 主键 值 排序 的 对 使 用 Intersection 索引 合并 有 了 哈 好 处 ? 小 
伙 子 ， 别 忘 了 Intersection 索引 合并 会 把 从 多 个 二 级 索引 中 查询 出 的 主键 值 求 交集 ， 如 果 从 各 个 二 级 索引 中 查 
询 的 到 的 结果 集 本 身 就 是 已 经 按照 主键 排 好 序 的 ， 那 么 求 交集 的 过 程 就 很 easy 啦 。 假 设 某 个 查询 使 用 
Intersection 索引 合并 的 方式 从 idx_keyl 和 idx_key2 这 两 个 二 级 索引 中 获取 到 的 主键 值 分 别 是 : 


。 从 idx_keyl 中 获取 到 已 经 排 好 序 的 主键 值 : 1、3、5 
。 从 idx_key2 中 获取 到 已 经 排 好 序 的 主键 值 : 2、3、4 


那么 求 交集 的 过 程 就 是 这 样 : 逐个 取出 这 两 个 结果 集中 最 小 的 主键 值 ， 如 果 两 个 值 相等 ， 则 加 入 最 后 的 交集 结果 
中 ， 否 则 丢弃 当前 较 小 的 主键 值 ， 再 取 该 丢弃 的 主键 值 所 在 结果 集 的 后 一 个 主键 信 来 比较 ， 直 到 | 某 个 结果 集中 的 
主键 值 用 完了 ， 如 果 还 是 觉得 不 太 明白 那 继续 往 下 看 : 


。 先 取出 这 两 个 结果 集中 较 小 的 主键 值 做 比较 ， 因 为 1 《< 2 ， 所 以 把 idx keyl 的 结果 集 的 主键 值 1 丢弃 ， 取 
出 后 边 的 3 来 比较 。 

。 因为 3 ”2 ， 所 以 把 idx_key2 的 结果 集 的 主键 值 2 丢弃 ， 取 出 后 边 的 3 来 比较 。 

。 因为 3 = 3 ， 所 以 把 3 加 入 到 最 后 的 交集 结果 中 ， 继 续 两 个 结果 集 后 边 的 主键 值 来 比较 。 

。 后 边 的 主键 值 也 不 相等 ， 所 以 最 后 的 交集 结果 中 只 包含 主键 值 3 。 


别 看 我 们 写 的 喝 嗪 ， 这 个 过 程 其 实 可 快 了 ， 时 间 复 杂 度 是 0(n) ， 但 是 如 果 从 各 个 二 级 索引 中 查询 出 的 结果 集 并 
不 是 按照 主键 排序 的 话 ， 那 就 要 先 把 结果 集中 的 主键 值 排序 完 再 来 做 上 边 的 那个 过 程 ， 就 比较 耗 时 了 。 


小 贴 士 : 
按照 有 序 的 主键 值 去 回 表 取 记录 有 个 专 有 名 词 儿 ， 叫 : Rowid Ordered Retrieval， 简 称 ROR， 以 后 大 家 
在 某 些 地 方 见 到 这 个 名 词 儿 就 眼熟 了 。 


另外 ， 不 仅 是 多 个 二 级 索引 之 间 可 以 采用 Intersection 索引 合并 ， 索 引 合 并 也 可 以 有 聚 簇 索引 参加 ， 也 就 是 我 
们 上 边 写 的 情况 二 : 在 搜索 条 件 中 有 主键 的 范围 匹配 的 情况 下 也 可 以 使 用 Intersection 索引 合并 索引 合并 。 为 
哈 主 键 这 就 可 以 范围 匹配 了 ? 还 是 得 回 到 应 用 场景 里 ， 比 如 看 下 边 这 个 查询 : 



































SELECT x* FROM single table WHERE keyl = "a AND id > 100; 


假设 这 个 查询 可 以 采用 Intersection 索引 合并 ， 我 们 理所当然 的 以 为 这 个 查询 会 分 别 按照 id > 100 这 个 条 件 从 
聚 篮 索 引 中 获取 一 些 记录 ， 在 通过 keyl =“a ”这 个 条 件 从 idx keyl 二 级 索引 中 获取 一 些 记录 ， 然 后 再 求 交集 ， 

其 实 这 样 就 把 问题 复杂 化 了 ， 没 必要 从 聚 复 索 引 中 获取 一 次 记录 。 别 筷 了 二 级 索引 的 记录 中 都 党 有 主键 值 的 ， 所 
以 可 以 在 从 idx_keyl 中 获取 到 的 主键 值 上 直接 运用 条 件 id > 100 过 滤 就 行 了 ， 这 样 多 简单 。 所 以 涉及 主键 的 搜 
索 条 件 只 不 过 是 为 了 从 别 的 二 级 索引 得 到 的 结果 集中 过 滤 记 录 罢 了 ， 是 不 是 等 值 匹 配 不 重要 。 


























当然 ， 上 边 说 的 情况 一 和 情况 二 只 是 发 生 Intersection 索引 合并 的 必要 和 条件， 不 是 充分 条 件 。 也 就 是 说 即使 
情况 一 、 情 况 二 成 立 ， 也 不 一 定 发 生 Intersection 索引 合并 ， 这 得 看 优化 器 的 心情 。 优 化 器 只 有 在 单独 根据 搜 


索 条 件 从 某 个 二 级 索引 中 获取 的 记录 数 太 多 ， 导 致 回 表 开 销 太 大 ， 而 通过 Intersection 索引 合并 后 需要 回 表 的 
记录 数 大 大 减少 时 才 会 使 用 Intersection 索引 合并 。 
10.8.3.2 Union 合 并 


我 们 在 写 查 询 语句 时 经 常 想 把 既 符 合 某 个 搜索 条 件 的 记录 取出 来 ， 也 把 符合 另外 的 某 个 搜索 条 件 的 记录 取出 来 ， 
我 们 说 这 些 不 同 的 搜索 条 件 之 间 是 OR 关系 。 有 时 候 OR 关系 的 不 同 搜索 条 件 会 使 用 到 不 同 的 索引 ， 比 方 说 这 样 : 


SELECT x* FROM single table WHERE keyl = "a OR key3 = b， 


Intersection 是 交集 的 意思 ， 这 适用 于 使 用 不 同 索 引 的 搜索 条 件 之 间 使 用 AND 连接 起 来 的 情况 ; Union 是 并 集 
的 意思 ， 适 用 于 使 用 不 同 索引 的 搜索 条 件 之 间 使 用 OR 连接 起 来 的 情况 。 与 Intersection 索引 合并 类 似 ， 
MySQL 在 某 些 特定 的 情况 下 才 可 能 会 使 用 到 Union 索引 合并 : 


。 情况 一 : 二 级 索引 列 是 等 值 匹 配 的 情况 ， 对 于 联合 索引 来 说 ， 在 联合 索引 中 的 每 个 列 都 必须 等 值 匹 配 ， 不 能 
出 现 只 出 现 匹配 部 分 列 的 情况 。 


比方 说 下 边 这 个 查询 可 能 用 到 idx keyl 和 idx key part 这 两 个 二 级 索引 进行 Union 索引 合并 的 操作 : 
SELECT x* FROM single table WHERE keyl = "a OR (key partl = "a AND key part2 = “bb 
AND key part3 = c ); 
而 下 边 这 两 个 查询 就 不 能 进行 Union 索引 合并 : 


SELECT x* FROM single table WHERE keyl > ’a OR (key partl = a AND key part2 =“b 
AND key part3 = c ); 


SELECT x* FROM single table WHERE keyl = as OR key partl = "a 


第 一 个 查询 是 因为 对 keyl 进行 了 范围 匹配 ， 第 二 个 查询 是 因为 联合 索引 idx_key_part 中 的 key_part2 列 
并 没有 出 现在 搜索 条 件 中 ， 所 以 这 两 个 查询 不 能 进行 Union 索引 合并 。 

情况 二 : 主键 列 可 以 是 范围 匹配 

情况 三 : 使 用 Intersection 索引 合并 的 搜索 条 件 


这 种 情况 其 实 也 挺 好 理解 ， 就 是 搜索 条 件 的 某 些 部 分 使 用 Intersection 索引 合并 的 方式 得 到 的 主键 集合 和 
其 他 方式 得 到 的 主键 集合 取 交 集 ， 比 方 说 这 个 查询 : 


SELECT x* FROM single table WHERE key partl = "a AND key part2 = ”pb”AND key part3 = 
"COR (keyl = a AND key3 = b ); 


优化 器 可 能 采用 这 样 的 方式 来 执行 这 个 查询 : 
a 先 按照 搜索 条 件 keyl = 'a” AND key3 = 'b” 从 索引 idx keyl 和 idx key3 中 使 用 Intersection 索引 
合并 的 方式 得 到 一 个 主键 集合 。 
sa 再 按照 搜索 条 件 key_partl = ’a ”AND key part2 ="“b” AND key_ part3 = ”c” 从 联合 索引 
idx_key_part 中 得 到 另 一 个 主键 集合 。 
" 采用 Union 索引 合并 的 方式 把 上 述 两 个 主键 集合 取 并 集 ， 然 后 进行 回 表 操作 ， 将 结果 返回 给 用 户 。 


当然 ， 查 询 条 件 符合 了 这 些 情况 也 不 一 定 就 会 采用 Union 索引 合并 ， 也 得 看 优化 器 的 心情 。 优 化 器 只 有 在 单独 根 
据 搜索 条 件 从 某 个 二 级 索引 中 获取 的 记录 数 比较 少 ， 通 过 Union 索引 合并 后 进行 访问 的 代价 比 全 表 扫 描 更 小 时 才 
会 使 用 Union 索引 合并 。 


10.8.3.3 Sort-Union 合 并 


Union 索引 合并 的 使 用 条 件 太 苛刻 ， 必 须 保证 各 个 二 级 索引 列 在 进行 等 值 匹 配 的 条 件 下 才 可 能 被 用 到 ， 比 方 说 下 
边 这 个 查询 就 无 法 使 用 到 Union 索引 合并 : 


SELECT x* FROM single table WHERE keyl < ’a OR key3 > ”z 


这 是 因为 根据 keyl < “a 从 idx_keyl 索引 中 获取 的 二 级 索引 记录 的 主键 值 不 是 排 好 序 的 ， 根 据 key3 > 
"z” 从 idx_key3 索引 中 获取 的 二 级 索引 记录 的 主键 值 也 不 是 排 好 序 的 , 但 是 keyl1 《< “a 和 key3 > 2z” 这 两 个 
条 件 又 特别 让 我 们 动心 ， 所 以 我 们 可 以 这 样 : 


。 先 根据 keyl 《< “a ”条 件 从 idx_keyl 二 级 索引 总 获取 记录 ， 并 按照 记录 的 主键 值 进行 排序 
。 再 根据 key3 >“z” 条 件 从 idx_key3 二 级 索引 总 获取 记录 ， 并 按照 记录 的 主键 值 进行 排序 
。 因为 上 述 的 两 个 二 级 索引 主键 值 都 是 排 好 序 的 ， 剩 下 的 操作 和 Union 索引 合并 方式 就 一 样 了 。 


我 们 把 上 述 这 种 先 按照 二 级 索引 记录 的 主键 值 进行 排序 ， 之 后 按照 Union 索引 合并 方式 执行 的 方式 称 之 为 Sort- 
Union 索引 合并 ， 很 显然 ， 这 种 Sort-Union 索引 合并 比 单纯 的 Union 索引 合并 多 了 一 步 对 二 级 索引 记录 的 主键 
值 排序 的 过 程 。 


小 贴 士 : 

为 噜 有 Sort-Union 索 引 合 并 ， 就 没有 Sort-Intersection 索 引 合并 么 ? 是 的 ， 的 确 没 有 Sort-Intersecti 
on 索引 合并 这 么 一 说 ， 

Sort-Union 的 适用 场景 是 单独 根据 搜索 条 件 从 某 个 二 级 索引 中 获取 的 记录 数 比 较 少 ， 这 样 即 使 对 这 些 二 
级 索引 记录 按照 主键 值 进行 排序 的 成 本 也 不 会 太 高 
而 Intersection 索 引 合并 的 适用 场景 是 单独 根据 搜索 条 件 从 某 个 二 级 索引 中 获取 的 记录 数 太 多 ， 导 致 
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表 开 销 太 大 ， 合 并 后 可 以 明显 降低 回 表 开销 ， 但 是 如 果 加 入 Sort-Intersection 后 ， 就 需要 为 大 量 的 二 
级 索引 记录 按照 主键 值 进行 排序 ， 这 个 成 本 可 能 比 回 表 查 询 都 高 了 ， 所 以 也 就 没有 引入 Sort-Intersect 














ion 这 个 玩意 儿 。 


10.8.3.4 索引 合并 注意 事项 


10.8.3.5 联合 索引 替代 Intersection 索 引 合并 


SELECT # FROM single table WHERE keyl = "a AND key3 = ”pb ; 


这 个 查询 之 所 以 可 能 使 用 Intersection 索引 合并 的 方式 执行 ， 还 不 是 因为 idx_keyl 和 idx_key3 是 两 个 单独 
的 B+ 树 索 引 ， 你 要 是 把 这 两 个 列 搞 一 个 联合 索引 ， 那 直接 使 用 这 个 联合 索引 就 把 事情 搞定 了 ， 何 必用 哈 索 引 合 
并 呢 ， 就 像 这 样 : 


ALTER TABLE single table drop index idx keyl, idx key3, add index idx keyl key3(keyl, key 
3 站 


这 样 我 们 把 没 用 的 idx keyl 、 idx key3 都 干掉 ， 再 添加 一 个 联合 索引 idx_keyl_ key3 ， 使 用 这 个 联合 索引 进 
行 查询 简直 是 又 快 又 好 ， 既 不 用 多 读 一 棵 B+ 树 ， 也 不 用 合并 结果 ， 何 乐 而 不 为 ? 


小 贴 士 : 
不 过 小 心 有 单 独 对 key3 列 进行 查询 的 业务 场景 ， 这 样子 不 得 不 再 把 key3 列 的 单独 索引 给 加 上 。 
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11 第 11 章 两 个 表 的 亲密 接触 -连接 的 原理 


标签 : MySQL 是 怎样 运行 的 


搞 数 据 库 一 个 避 不 开 的 概念 就 是 Join ， 翻 译 成 中 文 就 是 连接 。 相 信 很 多 小 伙伴 在 初学 连接 的 时 候 有 些 一 脸 异 
逼 ， 理 解 了 连接 的 语义 之 后 又 可 能 不 明白 各 个 表 中 的 记录 到 底 是 怎么 连 起 来 的 ， 以 至 于 在 使 用 的 时 候 常常 陷入 下 
边 两 种 误区 : 


。 误区 一 : 业务 至 上 ， 管 他 三 七 二 十 一 ， 再 复杂 的 查询 也 用 在 一 个 连接 语句 中 搞定 。 
。 误区 二 : 敬而远之 ， 上 次 DBA 那 给 报 过 来 的 慢 查询 就 是 因为 使 用 了 连接 导致 的 ， 以 后 再 也 不 敢 用 了 。 


所 以 本 章 就 来 扒 一 扒 连接 的 原理 。 考 虑 到 一 部 分 小 伙伴 可 能 筷 了 连接 是 个 啥 或 者 压根 儿 就 不 知道 ， 为 了 节省 他 们 
百度 或 者 看 其 他 书 的 宝贵 时 间 以 及 为 了 我 的 书 凑 字 数 ， 我 们 先 来 介绍 一 下 MySQL 中 支持 的 一 些 连 接 语法 。 


11.1 连接 简介 


11.1.1 连接 的 本 质 
为 了 故事 的 顺利 发 展 ， 我 们 先 建 立 两 个 简单 的 表 并 给 它们 填充 一 点 数据 : 


mysql> CREATE TABLE tl (ml int 
Query OK，0 rows affected (0. 02 


mysql> CREATE TABLE t2 (m2 int 
Query OK，0 rows affected (0. 02 


mysql> INSERT INTO tl VALUES (1， 
Query OK，3 rows affected (0. 00 


nl char(1) ) ; 


sec) 


n2 char (1) ) ; 


sec) 


2 bs (3 SO) 


sec) 


Records: 3 Duplicates: 0 VWarnings: 0 


mysql> INSERT INTO t2 VALUES (2, 
Query OK, 3 rows affected (0.00 


by (By ©) (bd 


sec) 


Records: 3 Duplicates: 0 VWarnings: 0 


我 们 成 功 建 立 了 tl 、 t2 两 个 表 ， 这 两 个 表 都 有 两 个 列 ， 一 个 是 INT 类 型 的 ， 








数据 的 两 个 表 长 这 样 : 
mysql> SELECT x*¥ FROM t1; 
ml nl 
由 站 注 
艺 : 省 
3 外 把 














3 rows in set (0. 00 sec) 


mysql> SELECT x*¥ FROM t2; 








m2 n2 
21b 
3 论 
4 |1d 














3 rows in set (0. 00 sec) 


连接 的 本 质 就 是 把 各 个 连接 表 中 的 记录 都 取出 来 依次 匹配 的 组 合 加 入 结果 集 并 返 


t2 两 个 表 连 接 起 来 的 过 程 如 下 图 所 示 : 


一 个 是 CHAR (1) 类 型 的 ， 填 充 好 


回 给 用 户 。 所 以 我 们 把 tl 和 
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这 个 过 程 看 起 来 就 是 把 tl 表 的 记录 和 t2 的 记录 连 起 来 组 成 新 的 更 大 的 记录 ， 所 以 这 个 查询 过 程 称 之 为 连接 查 
询 。 连 接 查 询 的 结果 集中 包含 一 个 表 中 的 每 一 条 记录 与 男 一 个 表 中 的 每 一 条 记录 相互 匹配 的 组 合 ， 像 这 样 的 结果 
集 就 可 以 称 之 为 笛 卡 尔 积 。 因 为 表 tl 中 有 3 条 记录 ， 表 t2 中 也 有 3 条 记录 ， 所 以 这 两 个 表 连 接 之 后 的 笛 卡 尔 积 
就 有 3X3=9 行 记录 。 在 MySQL 中 ， 连 接 查询 的 语法 也 很 随意 ， 只 要 在 FROM 语句 后 边 跟 多 个 表 名 就 好 了 ， 比 如 
我 们 把 tl 表 和 t2 表 连 接 起 来 的 查询 语句 可 以 写成 这 样 : 


mysql> SELECT x* FROM tl, t2; 
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9 rows in set (0. 00 sec) 


11.1.2 连接 过 程 简 介 


ee ， 我 们 可 以 连接 任意 数量 张 表 ， 但 是 如 果 没 有 任何 限制 条 件 的 话 ， 这 些 表 连 接 起 来 产生 的 笛 卡 尔 
可 能 是 非常 巨大 的 。 比方 说 3 个 100 行 记录 的 表 连 接 起 来 产生 的 笛 卡 尔 积 就 有 100X100X 100=1000000 行 数 
-| 所 以 在 连接 的 时 候 过 滤 掉 特定 记录 组 合 是 有 必要 的 ， 在 连接 查询 中 的 过 滤 条 件 可 以 分 成 两 种 : 


。 涉及 单 表 的 条 件 


这 种 只 设计 单 表 的 过 滤 条 件 我 们 之 前 都 提 到 过 一 万 遍 了 ， 我 们 之 前 也 一 直 称 为 搜索 条 件 ， 比 如 tl.ml > 1 
是 只 针对 tl 表 的 过 滤 条 件 ， t2.n2《“d 是 只 针对 t2 表 的 过 滤 条 件 。 
涉及 两 表 的 条 件 


这 种 过 滤 条 件 我 们 之 前 没 见 过 ， 比 如 tl.ml = t2.m2 、tl.nl >t2.n2 等 ， 这 些 条 件 中 涉及 到 了 两 个 表 , 我 
们 稍 后 会 仔细 分 析 这 种 过 滤 条 件 是 如 何 使 用 的 哈 。 


下 边 我 们 就 要 看 一 下 携带 过 滤 条 件 的 连接 查询 的 大 致 执行 过 程 了 ， 比 方 说 下 边 这 个 查询 语句 : 


SELECT * FROM tl，t2 WHERE tl.ml > 1 AND tl.ml = t2.m2 AND t2.n2 < "qd; 
在 这 个 查询 中 我 们 指明 了 这 三 个 过 滤 条 件 : 


。 tl.ml >1 
tl.ml = t2.m2 
。 ft2.n2《 “dd 


那么 这 个 连接 查询 的 大 致 执行 过 程 如 下 : 


1. 首先 确定 第 一 个 需要 查询 的 表 ， 这 个 表 称 之 为 驱动 表 。 怎 样 在 单 表 中 执行 查询 语句 我 们 在 前 一 章 都 踪 叫 过 
了 ， 只 需要 选取 代价 最 小 的 那 种 访问 方法 去 执行 单 表 查询 语句 就 好 了 (就 是 说 从 const、ref、ref_or_null、 
range、index、all 这 些 执行 方法 中 选取 代价 最 小 的 去 执行 查询 ) 。 此 处 假设 使 用 tl 作为 驱动 表 ， 那 么 就 需 
要 到 tl1 表 中 找 满足 t1. ml > 1 的 记录 ， 因 为 表 中 的 数据 太 少 ,我 们 也 没 在 表 上 建立 二 级 索引 ， 所 以 此 处 查 
询 tl 表 的 访问 方法 就 设 定 为 all 吧 ， 也 就 是 采用 全 表 扫 描 的 方式 执行 单 表 查 询 。 关 于 如 何 提升 连接 查询 的 
性 能 我 们 之 后 再 说 ， 现 在 先 把 基本 概念 返 清 楚 哈 。 所 以 查询 过 程 就 如 下 图 所 示 : 


access method: all 









t1.m1 > 1 


我 们 可 以 看 到 ， tl 表 中 符合 t1. ml >1 的 记录 有 两 条 。 

2. 针对 上 一 步骤 中 从 驱动 表 产 生 的 结果 集中 的 每 一 条 记录 ， 分 别 需要 到 t2 表 中 查找 匹配 的 记录 ， 所 谓 匹配 的 
记录 ， 指 的 是 符合 过 滤 条 件 的 记录 。 因 为 是 根据 tl 表 中 的 记录 去 找 t2 表 中 的 记录 ， 所 以 t2 表 也 可 以 被 
称 之 为 被 驱动 表 。 上 一 步骤 从 驱动 表 中 得 到 了 2 条 记录 ， 所 以 需要 查询 2 次 t2 表 。 此 时 涉及 两 个 表 的 列 的 
过 滤 条 件 t1. ml = t2. m2 就 派 上 用 场 了 : 


。 当 t1.ml = 2 上 时， 过滤 条 件 t1. ml = t2. m2 就 相当 于 t2. m2 = 2 ， 所 以 此 时 t2 表 相 当 于 有 了 t2. m2 = 
2 、 t2.n2《“d 这 两 个 过 滤 条 件 ， 然 后 到 t2 表 中 执行 单 表 查 询 。 

。 当 tl.ml = 3 时 ， 过 滤 条 件 t1. ml = t2. m2 就 相当 于 t2. m2 = 3 ， 所 以 此 时 t2 表 相 当 于 有 了 t2. m2 
3 、 t2.n2《“d 这 两 个 过 滤 条 件 ， 然 后 到 t2 表 中 执行 单 表 查询 。 


所 以 整个 连接 查询 的 执行 过 程 就 如 下 图 所 示 : 
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access method: all 





t2.m2 = 3 





也 就 是 说 整个 连接 查询 最 后 的 结果 只 有 两 条 符合 过 滤 条 件 的 记录 : 





ml nl m2 |n2 | 





C3 














从 上 边 两 个 步骤 可 以 看 出 来 ,我 们 上 边 啼 的 这 个 两 表 连 接 查 询 共 需 要 查询 1 次 tl 表 ，2 次 t2 表 。 当 然 这 是 在 
特定 的 过 滤 条 件 下 的 结果 ， 如 果 我 们 把 t1. ml > 1 这 个 条 件 去 掉 ， 那 么 从 tl 表 中 查 出 的 记录 就 有 3 条 ， 就 需要 
查询 3 次 t2 表 了 。 也 就 是 说 在 两 表 连 接 查 询 中 ， 驱 动 表 只 需要 访问 一 次 ， 被 驱动 表 可 能 被 访问 多 次 。 


11.1.3 内 连接 和 外 连接 
为 了 大 家 更 好 理解 后 边 内 容 ， 我 们 先 创建 两 个 有 现实 意义 的 表 ， 


CREATE TABLE student ( 
number INT NOT NULL AUTO INCREMENT COMMENT “学 号 ”， 
name VARCHAR (5) COMMENT “姓名 "， 
major VARCHAR(30) COMMENT “专业 ”， 
PRIMARY KEY (number) 
) Engine=InnoDB CHARSET=utf8 COMMENT 学生 信息 表 ” ; 








CREATE TABLE score ( 
number INT COMMENT "学 号 ” ， 
subject VARCHAR(30) COMMENT 科目 "， 
score TINYINT COMMENT， 成绩 ”， 
PRIMARY KEY (number, score) 
) Engine=InnoDB CHARSET=utf8 COMMENT “学 生成 绩 表 ” ; 


我 们 新 建 了 一 个 学 生 信息 表 ， 一 个 学 生成 绩 表 ， 然 后 我 们 向 上 述 两 个 表 中 插入 一 些 数据 ， 为 节省 篇 幅 ， 具 体 插入 
过 程 就 不 路 明 了 ， 插 入 后 两 表 中 的 数据 如 下 : 





mysql> SELECT x*¥ FROM student ; 





number “| name ma jor 
| 
T 








20180101 | 杜 子 腾 软件 学 院 
































20180102 | 范 统 计算 机 科学 与 工程 
20180103 | 史 珍 香 计算 机 科学 与 工程 














3 rows in set (0.00 sec) 


mysql> SELECT x*¥ FROM score; 























number subject score 
20180101 母 猪 的 产后 护理 78 
20180101 | 论 萨 达 姆 的 战争 准备 88 
20180102 | 论 萨 达 姆 的 战争 准备 98 
20180102 母 猪 的 产后 护理 100 





4 rows in set (0. 00 sec) 


现在 我 们 想 把 每 个 学 生 的 考试 成 绩 都 查询 出 来 就 需要 进行 两 表 连 接 了 (因为 score 中 没有 姓名 信息 ， 所 以 不 能 
纯 只 查询 score 表 ) 。 连 接 过 程 就 是 从 student 表 中 取出 记录 ， 在 score 表 中 查找 number 相同 的 成 绩 记录 ， 所 
以 过 滤 条 件 就 是 student. number = socre. number ， 整 个 查询 语句 就 是 这 样 : 


mysql> SELECT x*¥ FROM student, score WHERE student. number = Score.number; 



































































































































一 二 一 一 一 一 一 一 一 + 
number | name ma jor number subject 
score | 
一 二 一 一 一 一 一 一 一 + 
20180101 | 杜 子 腾 软件 学 院 20180101 | 母 猪 的 产后 护理 
78 
20180101 | 杜 子 腾 软件 学 院 20180101 | 论 萨 达 姆 的 战争 准备 
88 
20180102 | 范 统 计算 机 科学 与 工程 20180102 | 论 萨 达 姆 的 战争 准备 
98 
20180102 | 范 统 计算 机 科学 与 工程 20180102 | 母 猪 的 产后 护理 
100 
一 + 一 一 一 一 一 一 一 十 


4 rows in set (0. 00 sec) 


字段 有 点 多 哦 ， 我 们 少 查 询 几 个 字段 : 


mysql> SELECT sl.numper，Sl.name，S2. subject, s2. Score FROM Student AS sl, score AS s2 WHE 
RE sl.number = S2.number; 




































































number name subject score 
20180101 | 杜 子 腾 母 猪 的 产后 护理 78 
20180101 | 杜 子 腾 论 萨 达 姆 的 战争 准备 88 
20180102 | 范 统 论 萨 达 姆 的 战争 准备 98 
20180102 | 范 统 母 猪 的 产后 护理 100 





习 十 


rows in set (0. 00 sec) 





从 上 述 查询 结果 中 我 们 可 以 看 到 ， 各 个 同学 对 应 的 各 科 成 绩 就 都 被 查 出 来 了 ， 可 是 有 个 问题 ， 史 珍 香 同学 ,也 
就 是 学 号 为 20180103 的 同学 因为 某 些 原因 没有 参加 考试 ， 所 以 在 score 表 中 没有 对 应 的 成 绩 记 录 。 那 如 果 老 师 
想 查 看 所 有 同学 的 考试 成 绩 ， 即 使 是 缺 考 的 同学 也 应 该 展示 出 来 ， 但 是 到 目前 为 止 我 们 介绍 的 连接 查询 是 无 法 
完成 这 样 的 需求 的 。 我 们 稍微 思考 一 下 这 个 需求 ， 其 本 质 是 想 : 驱动 表 中 的 记录 即使 在 被 驱动 表 中 没有 匹配 的 记 
录 ， 也 仍然 需要 加 入 到 结果 集 。 为 了 解决 这 个 问题 ， 就 有 了 内 连接 和 外 连接 的 概念 : 








。 对 于 内 连接 的 两 个 表 ， 驱 动 表 中 的 记录 在 被 驱动 表 中 找 不 到 匹配 的 记录 ， 该 记录 不 会 加 入 到 最 后 的 结果 
集 ， 我 们 上 边 提 到 的 连接 都 是 所 谓 的 内 连接 。 
。 对 于 外 连接 的 两 个 表 ， 驱 动 表 中 的 记录 即使 在 被 驱动 表 中 没有 匹配 的 记录 ， 也 仍然 需要 加 入 到 结果 集 。 


在 MySQL 中 ， 根 据 选取 驱动 表 的 不 同 ， 外 连接 仍然 可 以 细 分 为 2 种 : 
” 左 外 连接 


选取 左 侧 的 表 为 驱动 表 。 
" 右 外 连接 


选取 右 侧 的 表 为 驱动 表 。 


可 是 这 样 仍然 存在 问题 ， 即 使 对 于 外 连接 来 说 ， 有 时 候 我 们 也 并 不 想 把 驱动 表 的 全 部 记录 都 加 入 到 最 后 的 结 
集 。 这 就 犯难 了 ， 有 了 时候 匹 配 失败 要 加 入 结果 集 ， 有 时 候 又 不 要 加 入 结果 集 ， 这 咋 办 ， 有 点 儿 愁 啊 。。。 吐 ,把 
过 滤 条 件 分 为 两 种 不 就 解决 了 这 个 问题 了 么 ， 所 以 放 在 不 同 地 方 的 过 滤 条 件 是 有 不 同 语义 的 : 


。 WHERE 子 句 中 的 过 滤 条 件 
WHERE 子 句 中 的 过 滤 条 件 就 是 我 们 平时 见 的 那 种 ， 不 论 是 内 连接 还 是 外 连接 ， 凡 是 不 符合 WHERE 子 句 中 的 过 


滤 条 件 的 记录 都 不 会 被 加 入 最 后 的 结果 集 。 
ON 子 句 中 的 过 滤 条 件 


对 于 外 连接 的 驱动 表 的 记录 来 说 ， 如 果 无 法 在 被 驱动 表 中 找到 匹配 ON 子 句 中 的 过 滤 条 件 的 记录 ， 那 么 该 记 
录 仍 然 会 被 加 入 到 结果 集中 ， 对 应 的 被 驱动 表 记 录 的 各 个 字段 使 用 NULL 值 填充 。 


需要 注意 的 是 ， 这 个 ON 子 句 是 专门 为 外 连接 驱动 表 中 的 记录 在 被 驱动 表 找 不 到 匹配 记录 时 应 不 应 该 把 该 记 
录 加 入 结果 集 这 个 场景 下 提出 的 ， 所 以 如 果 把 ON 子 句 放 到 内 连接 中 ， MySQL 会 把 它 和 WHERE 子 句 一 样 对 
待 ， 也 就 是 说 : 内 连接 中 的 WHERE 子 句 和 ON 子 句 是 等 价 的 。 


一 般 情况 下 ， 我 们 都 把 只 涉及 单 表 的 过 滤 条 件 放 到 WHERE 子 句 中 ， 把 涉及 两 表 的 过 滤 条 件 都 放 到 ON 子 句 中 ， 我 
们 也 一 般 把 放 到 ON 子 句 中 的 过 滤 条 件 也 称 之 为 连接 条 件 。 
小 贴 士 : 


左 外 连接 和 右 外 连接 简称 左 连接 和 右 连接 ， 所 以 下 边 提 到 的 左 外 连接 和 右 外 连接 中 的 外 字 都 用 括号 打 
起 来 ， 以 表示 这 个 字 儿 可 有 可 无 。 










































































11.1.3.1 左 (外 ) 连接 的 语法 


左 (外 ) 连接 的 语法 还 是 挺 简单 的 ， 比 如 我 们 要 把 t1 表 和 t2 表 进 行 左 外 连接 查询 可 以 这 么 写 : 


SELECT x* FROM tl LEFT [OUTER] JOIN t2 ON 连接 条 件 [WHERE 普通 过 滤 条 件 ]: 








其 中 中 括号 里 的 OUTER 单词 是 可 以 省 略 的 。 对 于 LEFT JOIN 类 型 的 连接 来 说 ， 我 们 把 放 在 左边 的 表 称 之 为 外 表 或 
者 驱动 表 ， 右 边 的 表 称 之 为 内 表 或 者 被 驱动 表 。 所 以 上 述 例子 中 tl 就 是 外 表 或 者 驱动 表 ， t2 就 是 内 表 或 者 被 驱 
动 表 。 需 要 注意 的 是 ， 对 于 左 (外 ) 连接 和 右 (外 ) 连接 来 说 ， 必 须 使 用 ON 子 句 来 指出 连接 条 件 。 了 解 了 左 
(外 ) 连接 的 基本 语法 之 后 ， 表 次 回 到 我 们 上 边 那 个 现实 问题 中 来 ， 看 看 怎样 写 查 询 语句 才能 把 所 有 的 学 生 的 成 
绩 信息 都 查询 出 来 ， 即 使 是 缺 考 的 考生 也 应 该 被 放 到 结果 集中 : 


mysql> SELECT sl. number, sl.name, s2. subject, s2. Score FROM student AS sl LEFT JOIN score 
AS S2 ON sl.number = s2. number; 







































































number name subject score 

20180101 | 杜 子 腾 母 猪 的 产后 护理 78 

20180101 | 杜 子 腾 论 萨 达 姆 的 战争 准备 88 

20180102 | 范 统 论 萨 达 姆 的 战争 准备 98 

20180102 | 范 统 母 猪 的 产后 护理 100 

20180103 | 史 珍 香 NULL NULL 
5 rows in set (0. 04 sec) 








从 结果 集中 可 以 看 出 来 ， 昌 然 史 珍 香 并 没有 对 应 的 成 绩 记录 ， 但 是 由 于 采用 的 是 连接 类 型 为 左 (外 ) 连接 ， 所 
以 仍然 把 她 放 到 了 结果 集中 ， 只 不 过 在 对 应 的 成 绩 记录 的 各 列 使 用 NULL 值 填充 而 已 。 











11.1.3.2 右 (外 ) 连接 的 语法 
右 (外 ) 连接 和 左 (外 ) 连接 的 原理 是 一 样 一 样 的 ， 语 法 也 只 是 把 LEFT 换 成 RIGHT 而 已 : 


SELECT x* FROM tl RIGHT [OUTER] JOIN t2 ON 连接 条 件 [WHERE 普通 过 滤 条 件 ] ; 














只 不 过 驱动 表 是 右边 的 表 ， 被 驱动 表 是 左边 的 表 ， 具 体 就 不 啼 明 了 。 


11.1.3.3 内 连接 的 语法 

内 连接 和 外 连接 的 根本 区 别 就 是 在 驱动 表 中 的 记录 不 符合 ON 子 句 中 的 连接 条 件 时 不 会 把 该 记录 加 入 到 最 后 的 结 
果 集 ， 我 们 最 开始 史明 的 那些 连接 查询 的 类 型 都 是 内 连接 。 不 过 之 前 仅仅 提 到 了 一 种 最 简单 的 内 连接 语法 ， 就 是 
直接 把 需要 连接 的 多 个 表 都 放 到 FROM 子 句 后 边 。 其 实 针 对 内 连接 :MySQL 提供 了 好 多 不 同 的 语法 ， 我 们 以 tl 
和 t2 表 为 例 此 旺 : 


SELECT x* FROM tl [INNER | CROSS] JOIN t2 [ON 连接 条 件 ] [WHERE 普通 过 滤 条 件 ] ; 
































也 就 是 说 在 MySQL 中 ， 下 边 这 几 种 内 连接 的 写法 都 是 等 价 的 : 
。 SELECT* FROM t1 JOIN t2; 
。SELECT* FROM t1 INNER JOIN t2; 
。 SELECT* FROM t1 CROSS JOIN t2; 
上 边 的 这 些 写法 和 直接 把 需要 连接 的 表 名 放 到 FROM 语句 之 后 ， 用 逗号 ， 分 隔 开 的 写法 是 等 价 的 : 
SELECT * FROM tl, t2; 
现在 我 们 虽然 介绍 了 很 多 种 内 连接 的 书写 方式 ， 不 过 熟悉 一 种 就 好 了 ， 这 里 我 们 推荐 INNER JOIN 的 形式 书写 内 


连接 (因为 INNER JOIN 语义 很 明确 嘛 ， 可 以 和 LEFT JOIN 和 RIGHT JOIN 很 轻松 的 区 分 开 ) 。 这 里 需要 注意 的 
是 ， 由 于 在 内 连接 中 ON 子 句 和 WHERE 子 句 是 等 价 的 ， 所 以 内 连接 中 不 要 求 强制 写 明 ON 子 句 。 


我 们 前 边 说 过 ， 连 接 的 本 质 就 是 把 各 个 连接 表 中 的 记录 都 取出 来 依次 匹配 的 组 合 加 入 结果 集 并 返回 给 用 户 。 不 论 
哪个 表 作 为 驱动 表 ， 两 表 连 接 产 生 的 笛 卡 尔 积 肯 定 是 一 样 的 。 而 对 于 内 连接 来 说 ， 由 于 凡是 不 符合 ON 子 句 或 
WHERE 子 句 中 的 条 件 的 记录 都 会 被 过 滤 掉 ， 其 实 也 就 相当 于 从 两 表 连 接 的 笛 卡 尔 积 中 把 不 符合 过 滤 条 件 的 记录 给 
踢 出 去 ， 所 以 对 于 内 连接 来 说 ， 驱 动 表 和 被 驱动 表 是 可 以 互 换 的 ， 并 不 会 影响 最 后 的 查询 结果 。 但 是 对 于 外 连接 
来 说 ， 由 于 驱动 表 中 的 记录 即使 在 被 驱动 表 中 找 不 到 符合 ON 子 句 连接 条 件 的 记录 ， 所 以 此 时 驱动 表 和 被 驱动 表 
的 关系 就 很 重要 了 ， 也 就 是 说 左 外 连接 和 右 外 连接 的 驱动 表 和 被 驱动 表 不 能 轻易 互 换 。 


11.1.3.4 小 结 


上 边 说 了 很 多 ， 给 大 家 的 感觉 不 是 很 直观 ， 我 们 直接 把 表 tl 和 t2 的 三 种 连接 方式 写 在 一 起 ， 这 样 大 家 理解 起 来 
就 很 easy 了 : 





mysql> SELECT x* FROM tl INNER JOIN t2 ON tl.ml = t2.m2; 


| ml nl m2 n2 | 





| 21 2|b | 
3 | < 3 | c | 














2 rows in set (0.00 sec) 


mysql> SELECT x* FROM tl LEFT JOIN t2 ON tl.ml = t2.m2; 





| ml nl m2 n2 | 





| 2 | bb 2 | b 
| 1 | a NULL | NULL 











| 
| 3 | < 3 | c | 
| 





3 rows in set (0.00 sec) 


mysql> SELECT x* FROM tl RIGHT JOIN t2 ON tl.ml = t2.m2; 





ml nl m2 n2 








2 | b 2 | 上 天 
2 c 3 C 
NULL | NULL 4 |d 

















3 rows in set (0. 00 sec) 


11.2 连接 的 原理 

上 边 贼 喝 嗪 的 介绍 都 只 是 为 了 唤醒 大 家 对 连接 、 内 连接 、 外 连接 这 些 概念 的 记忆 ， 这 些 基本 概念 是 为 了 真正 
进入 本 章 主题 做 的 铺垫 。 真 正 的 重点 是 MySQL 采 用 了 什么 样 的 算法 来 进行 表 与 表 之 间 的 连接 ， 了解 了 这 个 之 后 ， 
大 家 才能 明白 为 喻 有 的 连接 查询 运行 的 快 如 闪电 ， 有 的 却 慢 如 蜗牛 。 





11.2.1 嵌 套 循环 连接 (Nested-Loop Join) 


我 们 前 边 说 过 ， 对 于 两 表 连接 来 说 ， 驱 动 表 只 会 被 访问 一 遍 ， 但 被 驱动 表 却 要 被 访问 到 好 多 遍 ， 具 体 访 问 几 遍 取 
决 于 对 驱动 表 执行 单 表 查 询 后 的 结果 集中 的 记录 条 数 。 对 于 内 连接 来 说 ， 选 取 哪 个 表 为 驱动 表 都 没关系 ， 而 外 连 
接 的 驱动 表 是 固定 的 ， 也 就 是 说 左 (外 ) 连接 的 驱动 表 就 是 左边 的 那个 表 ， 右 (外) 连接 的 驱动 表 就 是 右边 的 那 


个 表 。 我 们 上 边 已 经 大 致 介绍 过 tl 表 和 t2 表 执 行内 连接 查询 的 大 臻 过程， 我 们 温习 一 下 : 


。 步骤 1: 选取 驱动 表 ， 使 用 与 驱动 表 相关 的 过 滤 条 件 ， 选 取代 价 最 低 的 单 表 访 问 方法 来 执行 对 驱动 表 的 单 表 
查询 。 
。 步骤 2: 对 上 一 步骤 中 查询 驱动 表 得 到 的 结果 集中 每 一 条 记录 ， 都 分 别 到 被 驱动 表 中 查找 匹配 的 记录 。 


通用 的 两 表 连 接 过 程 如 下 图 所 示 : 











1 1 1 
-一 一 步骤 1 1 步骤 2 1 
1 1 1 
1 1 只 涉及 被 开动 和 1 
| ! 的 过 小 条 件 最 佳 的 单 表 访问 方法 ] | 
1 1 1 
I I 网 1 
本 

筑 
1 I 入 1 
1 1 如 只 涉及 被 村 动 和 1 
1 1 全 的 过 锦 条 件 最 佳 的 单 表 沪 问 方法 1 
1 1 员 1 
1 1 贷 # 1 
! ! ! 
1 1 又 1 
1 1 凡 人 1 
! ei 只 涉及 被 开动 这 些 是 整个 连接 ! 
0 是 入 的 间 关 讲 间 方法 1 并 的 过 湾 条 人 最 佳 的 音 表 访问 方法 查询 的 结果 集 | 
| 的 过 泪 条 件 | 
ee I 涉及 两 表 的 过 注 条 件 | 
1 1 ， TDP 1 
1 1 1 
I T 1 
1 1 车 1 
1 1 业 1 
i i bi nm 而 年 本 本 年 1 
1 1 从 1 

后 

! | i | 

和 

| 网 只 涉及 被 机动 和 
| | 壬 | 全 的 过 四 条 件 最 侍 的 单 表 访问 方法 | 
1 1 台 1 
1 1 党 - 1 
| 这 是 查询 驱动 表 | 芝 ! 
| 得 到 的 结果 集 | 只 涉及 被 动静 | 
I 1 的 过 涉 条 件 ”二 最 佳 的 单 表 访问 方法 I 
1 1 1 
1 1 1 
I 1 1 
I I EE 1 





如 果 有 3 个 表 进 行 连接 的 话 ， 那 么 步骤 2 中 得 到 的 结果 集 就 像 是 新 的 驱动 表 ， 然 后 第 三 个 表 就 成 为 了 被 驱动 表 ， 
重复 上 边 过 程 ， 也 就 是 步骤 2 中 得 到 的 结果 集中 的 每 一 条 记录 都 需要 到 t3 表 中 找 一 找 有 没有 匹配 的 记录 ， 用 伪 
代码 表示 一 下 这 个 过 程 就 是 这 样 : 


for each row in tl { # 此 处 表示 遍历 满足 对 t1 单 表 查 询 结 果 集 中 的 每 一 条 记录 



































由 





for each row in t2 { # 此 处 表示 对 于 某 条 t1 表 的 记录 来 说 ， 人 遍历 满足 对 t2 单 表 查 询 结 果 绰 
每 一 条 记录 





FP 的 

















for each row in t3 {  # 此 处 表示 对 于 某 条 tl1 和 t2 表 的 记录 组 合 来 说 ， 对 t3 表 进行 单 表 查询 


if row satisfies join conditions, send to client 





} 


} 


这 个 过 程 就 像 是 一 个 嵌 套 的 循环 ， 所 以 这 种 驱动 表 只 访问 一 次 ， 但 被 驱动 表 却 可 能 被 多 次 访问 ， 访 问 次 数 取决 于 
对 驱动 表 执 行 单 表 查询 后 的 结果 集中 的 记录 条 数 的 连接 执行 方式 称 之 为 嵌 套 循环 连接 ( Nested-Loop Join ) ， 
这 是 最 简单 ， 也 是 最 笨拙 的 一 种 连接 查询 算法 。 


11.2.2 使 用 索引 加 快 连接 速度 


我 们 知道 在 幅 套 循环 连接 的 步骤 2 中 可 能 需要 访问 多 次 被 驱动 表 ， 如 果 访 问 被 驱动 表 的 方式 都 是 全 表 扫描 的 
话 ， 妈 呀 ， 那 得 要 扫描 好 多 次 呀 ~ ~ ~ 但 是 别 志 了 ， 查 询 t2 表 其 实 就 相当 于 一 次 单 表 扫描， 我 们 可 以 利用 索引 
来 加 快 查询 速度 哦 。 回 顾 一 下 最 开始 介绍 的 tl 表 和 t2 表 进 行内 连接 的 例子 : 


SELECT x* FROM tl，t2 WHERE tl.ml > 1 AND tl.ml = t2.m2 AND t2.n2《 d |; 


我 们 使 用 的 其 实 是 嵌 套 循环 连接 算法 执行 的 连接 查询 ， 再 把 上 边 那 个 查询 执行 过 程 表 拉 下 来 给 大 家 看 一 下 : 








t2.n2 < 'd' 


access method: all 





access method: all 
tlml>1 
2 b — 


access method: all 








t2.m2=3 


查询 驱动 表 t1 后 的 结果 集中 有 两 条 记录 ， 嵌 套 循环 连接 算法 需要 对 被 驱动 表 查 询 2 次 : 
。 当 t1. ml = 2 时 ， 去 查询 一 遍 t2 表 ， 对 t2 表 的 查询 语句 相当 于 : 





SELECT * FROM t2 WHERE t2.m2 = 2 AND t2.n2《 qd; 
。 当 tl.ml = 3 时 ， 再 去 查询 一 遍 t2 表 ， 此 时 对 t2 表 的 查询 语句 相当 于 : 
SELECT * FROM t2 WHERE t2.m2 = 3 AND t2.n2 < d ; 


可 以 看 到 ， 原 来 的 t1. ml = t2. m2 这 个 涉及 两 个 表 的 过 滤 条 件 在 针对 t2 表 做 查询 时 关于 tl 表 的 条 件 就 已 经 确 
定 了 ， 所 以 我 们 只 需要 单单 优化 对 t2 表 的 查询 了 ， 上 述 两 个 对 t2 表 的 查询 语句 中 利用 到 的 列 是 m2 和 n2 列 ， 
我 们 可 以 : 


。 在 m2 列 上 建立 索引 ， 因 为 对 m2 列 的 条 件 是 等 值 查找 ， 比 如 t2. m2 = 2 、t2.m2 = 3 等 ， 所 以 可 能 使 用 到 
ref 的 访问 方法 ， 假 设 使 用 ref 的 访问 方法 去 执行 对 t2 表 的 查询 的 话 ， 需 要 回 表 之 后 再 判断 t2.n02《 d 这 


个 条 件 是 否 成 立 。 


这 里 有 一 个 比较 特殊 的 情况 ， 就 是 假设 m2 列 是 t2 表 的 主键 或 者 唯一 二 级 索引 列 ， 那 么 使 用 t2. m2 = 常数 
值 这 样 的 条 件 从 t2 表 中 查找 记录 的 过 程 的 代价 就 是 常数 级 别 的 。 我 们 知道 在 单 表 中 使 用 主键 值 或 者 唯一 二 
级 索引 列 的 值 进行 等 值 查找 的 方式 称 之 为 const ， 而 设计 MySQL 的 大 叔 把 在 连接 查询 中 对 被 驱动 表 使 用 主键 
值 或 者 唯一 二 级 索引 列 的 值 进 行 等 值 查找 的 查询 执行 方式 称 之 为 : eq_ref 。 

在 n2 列 上 建立 索引 ， 涉 及 到 的 条 件 是 t2.n2《“d ， 可 能 用 到 range 的 访问 方法 ， 假 设 使 用 range 的 访问 
方法 对 t2 表 的 查询 的 话 ， 需 要 回 表 之 后 再 判断 在 m2 列 上 的 条 件 是 否 成 立 。 


假设 m2 和 n2 列 上 都 存在 索引 的 话 ， 那 么 就 需要 从 这 两 个 里 边 儿 挑 一 个 代价 更 低 的 去 执行 对 t2 表 的 查询 。 当 
然 ， 建 立 了 索引 不 一 定 使 用 索引 ， 只 有 在 二 级 索引 + 回 表 的 代价 比 全 表 扫 描 的 代价 更 低 时 才 会 使 用 索引 。 


另外 ， 有 时 候 连 接 查询 的 查询 列表 和 过 滤 条 件 中 可 能 只 涉及 被 驱动 表 的 部 分 列 ， 而 这 些 列 都 是 某 个 索引 的 一 部 
分 ， 这 种 情况 下 即使 不 能 使 用 eq_ref 、 ref 、 ref_or_null 或 者 range 这 些 访问 方法 执行 对 被 驱动 表 的 查询 的 
话 ， 也 可 以 使 用 索引 扫描 ， 也 就 是 index 的 访问 方法 来 查询 被 驱动 表 。 所 以 我 们 建议 在 真实 工作 中 最 好 不 要 使 
用 * 作为 查询 列表 ， 最 好 把 真实 用 到 的 列 作为 查询 列表 。 








11.2.3 基于 块 的 组 套 循 环 连接 (Block Nested-Loop Join) 


扫 摘 一 个 表 的 过 程 其 实 是 先 把 这 个 表 从 磁盘 上 加 载 到 内 存 中 ， 然 后 从 内 存 中 比较 匹配 条 件 是 否 满足 。 现 实生 活 中 
的 表 可 不 像 t1 、 t2 这 种 只 有 3 条 记录 ， 成 干 上 万 条 记录 都 是 少 的 ， 几 百 万 、 几 干 万 甚至 几 亿 条 记录 的 表 到 处 都 
是 。 内 存 里 可 能 并 不 能 完全 存放 的 下 表 中 所 有 的 记录 ， 所 以 在 扫描 表 前 边 记录 的 时 候 后 边 的 记录 可 能 还 在 磁盘 


上 ， 等 扫描 到 后 边 记 录 的 时 候 可 能 内 存 不 足 ， 所 以 需要 把 前 边 的 记录 从 内 存 中 释放 掉 。 我 们 前 边 又 说 过 ， 采 用 说 
套 循环 连接 算法 的 两 表 连 接 过 程 中 ， 被 驱动 表 可 是 要 被 访问 好 多 次 的 ， 如 果 这 个 被 驱动 表 中 的 数据 特别 多 而 且 不 
能 使 用 索引 进行 访问 ， 那 就 相当 于 要 从 磁盘 上 读 好 几 次 这 个 表 ， 这 个 1/0 代价 就 非常 大 了 ， 所 以 我 们 得 想 办 法 : 
尽量 减少 访问 被 驱动 表 的 次 数 。 


当 被 驱动 表 中 的 数据 非常 多 时 ， 每 次 访问 被 驱动 表 ， 被 驱动 表 的 记录 会 被 加 载 到 内 存 中 ， 在 内 存 中 的 每 一 条 记录 
只 会 和 驱动 表 结 果 集 的 一 条 记录 做 匹配 ， 之 后 就 会 被 从 内 存 中 清除 掉 。 然 后 再 从 驱动 表 结果 集中 拿 出 另 一 条 记 
录 ， 再 一 次 把 被 驱动 表 的 记录 加 载 到 内 存 中 一 遍 ， 周 而 复 始 ， 驱 动 表 结 果 集 中 有 多 少 条 记录 ， 就 得 把 被 驱动 表 从 
磁盘 上 加 载 到 内 存 中 多 少 次 。 所 以 我 们 可 不 可 以 在 把 被 驱动 表 的 记录 加 载 到 内 存 的 时 候 ， 一 次 性 和 多 条 驱动 表 中 
的 记录 做 匹配 ， 这 样 就 可 以 大 大 减少 重复 从 磁盘 上 加 载 被 驱动 表 的 代价 了 。 所 以 设计 MySQL 的 大 叔 提出 了 一 个 
join buffer 的 概念 ， join puffer 就 是 执行 连接 查询 前 申请 的 一 块 国定 大 小 的 内 存 ， 先 把 若干 条 驱动 表 结果 集 
中 的 记录 装 在 这 个 join buffer 中 ， 然 后 开始 扫描 被 驱动 表 ， 每 一 条 被 驱动 表 的 记录 一 次 性 和 join buffer 中 的 
多 条 驱动 表 记 录 做 匹配 ， 因 为 匹配 的 过 程 都 是 在 内 存 中 完成 的 ， 所 以 这 样 可 以 显著 减少 被 驱动 表 的 1/0 代价 。 使 
用 join buffer 的 过 程 如 下 图 所 示 : 


这 是 查询 驱动 表 
得 到 的 结果 集 


虽 Join buffer 
~ 只 涉及 被 驱动 表 


的 过 滤 条 件 
批量 和 被 驱动 表 中 的 记录 做 匹配 
| . 被 驱动 表 














最 好 的 情况 是 join buffer 足够 大 ， 能 容纳 驱动 表 结 果 集 中 的 所 有 记录 ， 这 样 只 需要 访问 一 次 被 驱动 表 就 可 以 完 
成 连接 操作 了 。 设计 MySQL 的 大 叔 把 这 种 加 入 了 join buffer 的 嵌 套 循环 连接 算法 称 之 为 基于 块 的 幅 套 连接 
(Block Nested-Loop Join) 算法 。 








这 个 join puffer 的 大 小 是 可 以 通过 启动 参数 或 者 系统 变量 join puffer size 进行 配置 ， 默 认 大 小 为 262144 字 
节 (也 就 是 256KB ) ， 最 小 可 以 设置 为 128 字 节 。 当 然 ， 对 于 优化 被 驱动 表 的 查询 来 说 ， 最 好 是 为 被 驱动 表 加 
上 效率 高 的 索引 ， 如 果实 在 不 能 使 用 索引 ， 并 且 自 己 的 机 器 的 内 存 也 比较 大 可 以 尝试 调 大 join_ buffer size 的 
值 来 对 连接 查询 进行 优化 。 


另外 需要 注意 的 是 ， 驱 动 表 的 记录 并 不 是 所 有 人 列 都 会 被 放 到 join buffer 中 ， 只 有 查询 列表 中 的 列 和 过 滤 条 件 中 
的 列 才 会 被 放 到 join buffer 中 ， 所 以 再 次 提醒 我 们 ， 最 好 不 要 把 * 作为 查询 列表 ， 只 需要 把 我 们 关心 的 列 放 到 
查询 列表 就 好 了 ， 这 样 还 可 以 在 join buffer 中 放置 更 多 的 记录 呢 哈 。 





12 第 12 章 谁 最 便宜 就 选 谁 -MySQL 基 于 成 本 的 优化 


标签 : MySQL 是 怎样 运行 的 


12.1 什么 是 成 本 
我 们 之 前 老 说 MySQL 执行 一 个 查询 可 以 有 不 同 的 执行 方案 ， 它 会 选择 其 中 成 本 最 低 ， 或 者 说 代价 最 低 的 那 种 方案 
去 真正 的 执行 查询 。 不 过 我 们 之 前 对 成 本 的 描述 是 非常 模糊 的 ， 其 实在 MySQL 中 一 条 查询 语句 的 执行 成 本 是 由 
下 边 这 两 个 方面 组 成 的 : 
。 I/0 成 本 
我 们 的 表 经 常 使 用 的 MyISAM 、 InnoDB 存储 引擎 都 是 将 数据 和 索引 都 存储 到 磁盘 上 的 ， 当 我 们 想 查 询 表 中 的 
记录 时 ， 需 要 先 把 数据 或 者 索引 加 载 到 内 存 中 然后 再 操作 。 这 个 从 磁盘 到 内 存 这 个 加 载 的 过 程 损耗 的 时 间 称 
之 为 1/0 成 本 。 
。 CPU 成 本 
读 取 以 及 检测 记录 是 否 满足 对 应 的 搜索 条 件 、 对 结果 集 进行 排序 等 这 些 操作 损耗 的 时 间 称 之 为 CPU 成 本 。 


对 于 InnoDB 存储 引擎 来 说， 页 是 磁盘 和 内 存 之 间 交 互 的 基本 单位 ， 设 计 MySQL 的 大 叔 规 定 读 取 一 个 页 面 人 花费 的 
成 本 默认 是 1. 0 ， 读 取 以 及 检测 一 条 记录 是 否 符合 搜索 条 件 的 成 本 默认 是 0. 2 。 1. 0 、 0. 2 这 些 数字 称 之 为 成 
本 常数 ， 这 两 个 成 本 常数 我 们 最 常用 到 ， 其 余 的 成 本 常数 我 们 后 边 再 说 哈 。 

小 贴 士 : 

需要 注意 的 是 ， 不 管 读 取 记 录 时 需 不 需要 检测 是 否 满足 搜索 条 件 ， 其 成 本 都 算是 0. 2。 


12.2 单 表 查 询 的 成 本 


12.2.1 准备 工作 
为 了 故事 的 顺利 发 展 ， 我 们 还 得 把 之 前 用 到 的 single_table 表 搬 来 ， 怕 大 家 记 了 这 个 表 长 哈 样 ， 表 给 大 家 抄 一 


遍 : 





























CREATE TABLE single table ( 
id INT NOT NULL AUTO INCREMENT, 
keyl VARCHAR (100), 
key2 INT, 
key3 VARCHAR(100), 
key partl VARCHAR(100), 
key part2 VARCHAR (100), 
key part3 VARCHAR(100), 
common field VARCHAR(100), 
PRIMARY KEY (id), 
KEY idx keyl (keyl), 
UNIQUE KEY idx key2 (key2), 
KEY idx key3 (key3), 
KEY idx key part (key partl, key part2, key part3) 
) Engine=InnoDB CHARSET=utf8; 





还 是 假设 这 个 表 里 边 儿 有 10000 条 记录 ， 除 id 列 外 其 余 的 列 都 插入 随机 值 。 下 边 正式 开始 我 们 的 表演 。 


12.2.2 基于 成 本 的 优化 步骤 

在 一 条 单 表 查询 语句 真正 执行 之 前 ， MySQL 的 查询 优化 器 会 找 出 执行 该 语句 所 有 可 能 使 用 的 方案 ， 对 比 之 后 找 出 
成 本 最 低 的 方案 ， 这 个 成 本 最 低 的 方案 就 是 所 谓 的 执行 计划 ， 之 后 才 会 调用 存储 引擎 提供 的 接口 真正 的 执行 查 
询 ， 这 个 过 程 总 结 一 下 就 是 这 样 : 


1. 根据 搜索 条 件 ， 找 出 所 有 可 能 使 用 的 索引 

2. 计算 全 表 扫 描 的 代价 

3. 计算 使 用 不 同 索引 执行 查询 的 代价 

4. 对 比 各 种 执行 方案 的 代价 ， 找 出 成 本 最 低 的 那 一 个 


下 边 我 们 就 以 一 个 实例 来 分 析 一 下 这 些 步 又， 单 表 查 询 语句 如 下 : 


SELECT x*¥ FROM single _ table WHERE 
keyl IN (Ca, bb， cc) AND 
key2 > 10 AND key2《 1000 AND 
key3 > key2 AND 
key partl LIKE ’ %hello% AND 


common field = “123 ; 


乍 看 上 去 有 点 儿 复杂 哦 ， 我 们 一 步 一 步 分 析 一 下 。 


12.2.2.1 1. 根据 搜索 条 件 ， 找 出 所 有 可 能 使 用 的 索引 


我 们 前 边 说 过 ， 对 于 B+ 树 索引 来 说 ， 只 要 索引 列 和 常数 使 用 = 、 <=> 、 IN、 NOT IN、 IS NULL 、 IS NOT 
NULL 、> 、《<、)=、 《< 、 BETWEEN 、 != (不 等 于 也 可 以 写成 《<> ) 或 者 LIKE 操作 符 连 接 起 来 ， 就 可 以 产 
生 一 个 所 谓 的 范围 区 间 (LIKE 匹配 字符 串 前 缀 也 行 ) ， 也 就 是 说 这 些 搜索 条 件 都 可 能 使 用 到 索引 ， 设 计 
MySQL 的 大 叔 把 一 个 查询 中 可 能 使 用 到 的 索引 称 之 为 possible keys 。 


我 们 分 析 一 下 上 边 查 询 中 涉及 到 的 几 个 搜索 条 件 : 


。 keyl IN (a ,， bc) ， 这 个 搜索 条 件 可 以 使 用 二 级 索引 idx_keyl 。 
。 key2 > 10 AND key2《 1000 ， 这 个 搜索 条 件 可 以 使 用 二 级 索引 idx_key2 。 
key3 > key2 ， 这 个 搜索 条 件 的 索引 列 由 于 没有 和 常数 比较 ， 所 以 并 不 能 使 用 到 索引 。 
。 key_ partl LIKE“%hello% ， key_partl 通过 LIKE 操作 符 和 以 通配符 开头 的 字符 串 做 比较 ， 不 可 以 适用 
索引 。 
。 common field = 123”， 由 于 该 列 上 压根 儿 没 有 索引 ， 所 以 不 会 用 到 索引 。 

















综 上 所 述 ， 上 边 的 查询 语句 可 能 用 到 的 索引 ， 也 就 是 possible keys 只 有 idx keyl 和 idx_key2 。 


12.2.2.2 2. 计算 全 表 扫 描 的 代价 


对 于 InnoDB 人 存储 引擎 来 说 ， 全 表 扫描 的 意思 就 是 把 聚 篮 索引 中 的 记录 都 依次 和 给 定 的 搜索 条 件 做 一 下 比较 ， 把 
符合 搜索 条 件 的 记录 加 入 到 结果 集 ， 所 以 需要 将 聚 篮 索引 对 应 的 页 面 加 载 到 内 存 中 ， 然 后 再 检测 记录 是 否 符合 搜 
索 条 件 。 由 于 查询 成 本 = 1/0 成 本 + CPU 成 本 ， 所 以 计算 全 表 扫 描 的 代价 需要 两 个 信息 : 


。 聚 禾 索 引 占 用 的 页 面 数 
。 该 表 中 的 记录 数 


这 两 个 信息 从 哪 来 呢 ? 设计 MySQL 的 大 叔 为 每 个 表 维护 了 一 系列 的 统计 信息 ， 关 于 这 些 统计 信息 是 如 何 收集 起 
来 的 我 们 放 在 本 章 后 边 详细 啼 明 ， 现 在 看 看 怎么 查看 这 些 统计 信息 哈 。 设 计 MySQL 的 大 叔 给 我 们 提供 了 SHOW 
TABLE STATUS 语句 来 查看 表 的 统计 信息 ， 如 果 要 看 指定 的 某 个 表 的 统计 信息 ， 在 该 语句 后 加 对 应 的 LIKE 语句 就 
好 了 ， 比 方 说 我 们 要 查看 single_table 这 个 表 的 统计 信息 可 以 这 么 写 : 





mysql> USE xiaohaizi; 


Database changed 


mysql> SHOW TABLE STATUS LIKE ’ single _ table \G 


米 米 米 米 米 米 米 炒米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 洲 米 ]. 


Name : 
Engine: 
Version: 
Row_format : 
Rows : 

gth: 
gth: 
gth: 
gth: 
ta free: 


Avg_row_ len 
Data 
Max_data 
Index len 

Da 


Auto_incre 


,len 
,len 





ent : 
Create time : 
Upda 
Check time: 

Collation: 


Checksum: 





te time: 


Create options: 


Comment : 


TOW 米 米 
Single table 

InnoDB 

10 

Dynamic 

9693 

163 

1589248 

0 

2752512 

4194304 

10001 

2018-12-10 13:37:23 
2018-12-10 13:38:03 
NULL 

utf8 general ci 
NULL 


1 row in set (0.01 sec) 


米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 


虽然 出 现 了 很 多 统计 选项 ， 但 我 们 目前 只 关心 两 个 : 


。 Rows 


本 选项 表示 表 中 的 记录 条 数 。 对 于 使 用 MyISAM 存储 引擎 的 表 来 说 ， 该 值 是 准确 的 ， 对 于 使 用 InnoDB 存储 引 
擎 的 表 来 说 ， 该 值 是 一 个 估计 值 。 从 查询 结果 我 们 也 可 以 看 出 来 ， 由 于 我 们 的 single_table 表 是 使 用 
InnoDB 存储 引擎 的 ， 所 以 虽然 实际 上 表 中 有 10000 条 记录 ， 但 是 SHOW TABLE STATUS 显示 的 Rows 值 只 有 


9693 条 记录 。 
Data length 


本 选项 表示 表 占 用 的 存储 空间 字 节 数 。 使 用 MyISAM 存储 引擎 的 表 来 说 ， 该 值 就 是 数据 文件 的 大 小 ， 对 于 使 
用 InnoDB 人 存储 引擎 的 表 来 说 ， 该 值 就 相当 于 聚 篮 索 引 占 用 的 存储 空间 大 小 ， 也 就 是 说 可 以 这 样 计算 该 值 的 


大 小 : 


Data length = 














聚 途 索引 的 页 面 数 和 














x 每 个 页 面 的 大 小 








我 们 的 single_table 使 用 默认 16KB 的 页 面 大 小 ， 而 上 边 查 询 结果 显示 Data_length 的 值 是 1589248 ， 所 


以 我 们 可 以 反 向 来 推导 出 
肾 簇 索引 的 页 面 数量 


= 1589248 一 





聚 艇 索引 的 页 面 数量 : 


16 = 1024 = 97 


我 们 现在 已 经 得 到 了 聚 簇 索 引 占 用 的 页 面 数量 以 及 该 表 记 录 数 的 估计 值 ， 所 以 就 可 以 计算 全 表 扫 描 成 本 了 ， 但 是 


设计 MySQL 的 大 叔 在 真实 计算 成 本 时 会 进行 一 些 微调 ， 





这 些微 调 的 值 是 直接 硬 编码 到 代码 里 的 ， 由 于 没有 注 


释 ， 我 也 不 知道 这 些微 调 值 是 个 啥子 意思 ， 但 是 由 于 这 些微 调 的 值 十 分 的 小 ， 并 不 影响 我 们 分 析 ， 所 以 我 们 也 没 
有 必要 在 这 些微 调 值 上 纠结 了 。 现 在 可 以 看 一 下 全 表 扫描 成 本 的 计算 过 程 : 


IZ0 成 本 


97 x 1.0+ 


hil 6d 


97 指 的 是 聚 篮 索 引 占 用 的 页 面 数 ， 1.0 指 的 是 加 载 一 个 页 面 的 成 本 常数 ， 后 边 的 1. 1 是 一 个 微调 值 ， 我 们 
不 用 在 意 。 
。 CPU 成 本 : 
9693 x 0.2 + 1.0 = 1939.6 


9693 指 的 是 统计 数据 中 表 的 记录 数 ， 对 于 InnoDB 存储 引擎 来 说 是 一 个 估计 值 ， 0. 2 指 的 是 访问 一 条 记录 
所 需 的 成 本 常数 ， 后 边 的 1. 0 是 一 个 微调 值 ， 我 们 不 用 在 意 。 


e 总 成 本 : 
98.1 + 1939.6 = 2037.7 
综 上 所 述 ， 对 于 single_table 的 全 表 扫 描 所 需 的 总 成 本 就 是 2037. 7 。 


小 贴 士 : 

我 们 前 边 说 过 表 中 的 记录 其 实 都 存储 在 聚 秘 索 引 对 应 B+ 树 的 叶子 节点 中 ， 所 以 只 要 我 们 通过 根 节点 获得 

了 最 左边 的 叶子 节点 ， 就 可 以 沿 着 叶子 节点 组 成 的 双向 链表 把 所 有 记录 都 查看 一 遍 。 也 就 是 说 全 表 扫 描 

这 个 过 程 其 实 有 的 B+ 树 内 节点 是 不 需要 访问 的 ， 但 是 设计 MySQL 的 大 叔 们 在 计算 全 表 扫 描 成 本 时 直接 使 
聚 徐 索 引 占 用 的 页 面 数 作为 计算 IVZ0 成 本 的 依据 ， 是 不 区 分 内 节点 和 叶子 节点 的 ， 有 点 儿 简单 暴力 ， 

大 家 注意 一 下 就 好 了 。 































































































































































































12.2.2.3 3. 计算 使 用 不 同 索引 执行 查询 的 代价 

从 第 1 步 分 析 我 们 得 到 ， 上 述 查 询 可 能 使 用 到 idx_ keyl 和 idx key2 这 两 个 索引 ， 我 们 需要 分 别 分 析 单 独 使 用 这 
些 索引 执行 查询 的 成 本 ， 最 后 还 要 分 析 是 否 可 能 使 用 到 索引 合并 。 这 里 需要 提 一 点 的 是 ， MySQL 查询 优化 器 先 分 
析 使 用 唯一 二 级 索引 的 成 本 ， 再 分 析 使 用 普通 索引 的 成 本 ， 所 以 我 们 也 先 分 析 idx_key2 的 成 本 ， 然 后 再 看 使 用 
idx_keyl 的 成 本 。 


他 Widx_key2M 17EIINIE RD 
idx_key2 对 应 的 搜索 条 件 是 : key2 >10 AND key2《 1000 ， 也 就 是 说 对 应 的 范围 区 间 就 是 : (10，1000) ， 
使 用 idx_key2 搜索 的 示意 图 就 是 这 样子 : 








key2 > 10 AND 


key2 < 100 


idx_key2 索 引 示意 图 


ol 
ll Wl 


key2 值 增 长 方向 


pa 
位 key2 在 (10，1000) 这 个 区 


间 内 的 记录 ， 找 到 这 些 记录 对 
应 的 id 列 的 值 









聚 禾 索 引 示意 图 


id 列 | 


id 值 增长 方向 


步骤 2: 再 从 聚 著 索 引 中 根据 上 
一 步 得 到 的 id 值 ， 找 到 完整 


的 用 户 记 录 








对 于 使 用 二 级 索引 + 回 表 方式 的 查询 ， 设 计 MySQL 的 大 叔 计算 这 种 查询 的 成 本 依赖 两 个 方面 的 数据 : 
范围 区 间 数 量 


不 论 某 个 范围 区 间 的 二 级 索引 到 | 底 占用 了 多 少 页面 ， 查 询 优化 器 粗暴 的 认为 读 取 索引 的 一 个 范围 区 间 的 I/0 
成 本 和 读 取 一 个 页 面 是 相同 的 。 本 例 中 使 用 idx_key2 的 范围 区 间 只 有 一 个 : (10，1000) ， 所 以 相当 于 访问 
这 个 范围 区 间 的 二 级 索引 付出 的 1/0 成 本 就 是 : 


1x1.0=1.0 
。 需要 回 表 的 记录 数 


优化 器 需要 计算 二 级 索引 的 某 个 范围 区 间 到 底 包 含 多 少 条 记录 ， 对 于 本 例 来 说 就 是 要 计算 idx_key2 在 (10， 
1000) 这 个 范围 区 间 中 包含 多 少 二 级 索引 记录 ， 计 算 过 程 是 这 样 的 : 

”步骤 1: 先 根据 key2 >10 这 个 条 件 访问 一 下 idx_key2 对 应 的 B+ 树 索引 ， 找 到 满足 key2 > 10 这 个 条 
件 的 第 一 条 记录 ， 我 们 把 这 条 记录 称 之 为 区 间 最 左 记 录 。 我 们 前 头 说 过 在 B+ 数 树 中 定位 一 条 记录 的 过 
程 是 贼 快 的 ， 是 常数 级 别 的 ， 所 以 这 个 过 程 的 性 能 消耗 是 可 以 忽略 不 计 的 。 

o 步骤 2: 然后 再 根据 key2 《< 1000 这 个 条 件 继续 从 idx_key2 对 应 的 B+ 树 索引 中 找 出 第 一 条 满足 这 
个 条 件 的 记录 ， 我 们 把 这 条 记录 称 之 为 区 间 最 右 记 录 ， 这 个 过 程 的 性 能 消耗 也 可 以 忽略 不 计 的 。 
步骤 3: 如 果 区 间 最 左 记录 和 区 间 最 右 记 录 相 隅 不 太 远 (在 MySQL 5. 7. 21 这 个 版 本 里 ， 只 要 相 
隔 不 大 于 10 个 页 面 即 可 ) ， 那 就 可 以 精确 统计 出 满足 key2 > 10 AND key2《 1000 条 件 的 二 级 索引 
记录 条 数 。 否 则 只 沿 着 区 间 最 左 记 录 向 右 读 10 个 页 面 ， 计 算 平均 每 个 页 面 中 包含 多 少 记录 ， 然 后 
用 这 个 平均 值 乘 以 区 间 最 左 记录 和 区 间 最 右 记录 之 间 的 页 面 数量 就 可 以 了 。 那 么 问题 又 来 了 ， 怎 
么 估计 区 间 最 左 记 录 和 区 间 最 右 记录 之 间 有 多 少 个 页 面 呢 ?” 解决 这 个 问题 还 得 回 到 B+ 树 索引 的 
结构 中 来 : 











[eo] 





















每 一 条 目录 项 记录 都 对 应 一 个 数据 页 ， 
只 要 计算 页 b 和 页 c 对 应 的 目录 项 记录 
之 间隔 着 几 条 记录 ， 就 相当 于 页 b 和 页 c 
之 间隔 着 几 个 数据 页 
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页 b 对 应 的 目录 项 记录 
页 c 对 应 的 目录 项 记录 
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如 图 ， 我 们 假设 区 间 最 左 记 录 在 页 b 中 ， 区 间 最 右 记 录 在 页 c 中， 那么 我 们 想 计 算 区 间 最 左 记 
录 和 区 间 最 右 记录 之 间 的 页 面 数量 就 相当 于 计算 页 b 和 页 c 之 间 有 多 少 页 面 ， 而 每 一 条 目录 项 
记录 都 对 应 一 个 数据 页 ， 所 以 计算 页 b 和 页 c 之 间 有 多 少 页 面 就 相当 于 计算 它们 父 节点 (也 就 是 
页 a) 中 对 应 的 目录 项 记录 之 间隔 着 几 条 记录 。 在 一 个 页 面 中 统计 两 条 记录 之 间 有 几 条 记录 的 成 本 
就 贼 小 了 。 








不 过 还 有 问题 ， 如 果 页 b 和 页 c 之 间 的 页 面 实在 太 多 ， 以 至 于 页 b 和 页 c 对 应 的 目录 项 记录 都 不 
在 一 个 页 面 中 该 咋 办 ”继续 递归 啊 ， 也 就 是 再 统计 页 b 和 页 对 应 的 目录 项 记录 所 在 页 之 间 有 多 少 
个 页 面 。 之 前 我 们 说 过 一 个 B+ 树 有 4 层 高 已 经 很 了 不 得 了 ， 所 以 这 个 统计 过 程 也 不 是 很 耗费 性 能 。 


知道 了 如 何 统计 二 级 索引 某 个 范围 区 间 的 记录 数 之 后 ， 就 需要 回 到 现实 问题 中 来 ,根据 上 述 算法 测 得 
idx_key2 在 区 间 (10，1000) 之 间 大 约 有 95 条 记录 。 读 取 这 95 条 二 级 索引 记录 需要 付出 的 CPU 成 本 


就 是 : 


95 x 0.2+ 0.01 = 19.01 


其 中 95 是 需要 读 取 的 二 级 索引 记录 条 数 ， 0. 2 是 读 取 一 条 记录 成 本 常数 ， 0. 01 是 微调 。 


在 通过 二 级 索引 获取 到 记录 之 后 ， 还 需要 干 两 件 事 儿 : 
。 根据 这 些 记录 里 的 主键 值 到 聚 艇 索引 中 做 回 表 操作 


[eo] 


这 里 需要 大 家 使 劲 儿 睁 大 自己 滴 溜溜 的 大 眼睛 仔细 瞧 ， 设 计 MySQL 的 大 下 评估 回 表 操作 的 1/0 成 本 
依旧 很 豪放 ， 他 们 认为 每 次 回 表 操 作 都 相当 于 访问 一 个 页 面 ， 也 就 是 说 二 级 索引 范围 区 间 有 多 少 记 
录 ， 就 需要 进行 多 少 次 回 表 操 作 ， 也 就 是 需要 进行 多 少 次 页 面 I/0 。 我 们 上 边 统 计 了 使 用 
idx_key2 二 级 索引 执行 查询 时 ， 预 计 有 95 条 二 级 索引 记录 需要 进行 回 表 操作 ， 所 以 回 表 操 作 带 来 
的 1/0 成 本 就 是 : 


95 x 1.0 = 95.0 


其 中 95 是 预计 的 二 级 索引 记录 数 ， 1. 0 是 一 个 页 面 的 1/0 成 本 常数 。 
回 表 操作 后 得 到 的 完整 用 户 记 录 ， 然 后 再 检测 其 他 搜索 条 件 是 否 成 立 


回 表 操 作 的 本 质 就 是 通过 二 级 索引 记录 的 主键 值 到 聚 篮 索 引 中 找到 完整 的 用 户 记 录 ， 然 后 再 检测 除 

key2 > 10 AND key2《 1000 这 个 搜索 条 件 以 外 的 搜索 条 件 是 否 成 立 。 因 为 我 们 通过 范围 区 间 获 取 
到 二 级 索引 记录 共 95 条 ， 也 就 对 应 着 聚 艇 索引 中 95 条 完整 的 用 户 记 录 ， 读 取 并 检测 这 些 完整 的 用 
户 记录 是 否 符合 其 余 的 搜索 条 件 的 CPU 成 本 如 下 : 


























设计 MySQL 的 大 叔 只 计算 这 个 查找 过 程 所 需 的 I/0 成 本 ， 也 就 是 我 们 上 一 步骤 中 得 到 的 95.0 ， 
在 内 存 中 的 定位 完整 用 户 记录 的 过 程 的 成 本 是 忽略 不 计 的 。 在 定位 到 这 些 完 整 的 用 户 记 录 后 ， 需 要 检测 
除 key2 > 10 AND key2《 1000 这 个 搜索 条 件 以 外 的 搜索 条 件 是 否 成 立 ， 这 个 比较 过 程 花费 的 CPU 成 
本 就 是 : 
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其 中 95 是 待 检测 记录 的 条 数 ， 0. 2 是 检测 一 条 记录 是 否 符合 给 定 的 搜索 条 件 的 成 本 常数 。 
所 以 本 例 中 使 用 idx_key2 执行 查询 的 成 本 就 如 下 所 示 : 


。 I/0 成 本 : 
1.0 + 95 x 1.0 = 96.0 (范围 区 间 的 数量 + 预 估 的 二 级 索引 记录 条 数 ) 


























。 CPU 成 本 : 
95 x 0.2 + 0.01 + 95 x 0.2 = 38.01 ( 读 取 二 级 索引 记录 的 成 本 + 读 取 并 检测 回 表 后 聚 簇 索 
引 记录 的 成 本 ) 


综 上 所 述 ,使 用 idx_key2 执行 查询 的 总 成 本 就 是 : 


96.0 + 38.01 = 134.01 


伪 万 dx_key1 夯 打 六 的 克 下 分 析 
idx_keyl 对 应 的 搜索 条 件 是 : keyl IN (0a ,pb ,， ec ) ， 也 就 是 说 相当 于 3 个 单 点 区 间 : 


"a ] 
"b’] 
"Cc’] 


使 用 idx_keyl 搜索 的 示意 图 就 是 这 样子 : 





keyl keyl IN 
C8, D6) 


步骤 1: 依次 从 idx_key1 索 引 中 
定位 key1 = 'a'、key1 = 'b'、 


idx_key1 索 引 示 意图 


key1 = 'c' 的 记录 ，， 然 后 找 
到 这 些 记 录 对 应 的 id 列 的 值 





py 


一 步 得 到 的 一 系列 id 值 找到 完 
整 的 用 户 记 录 





id 值 增 长 方向 


与 使 用 idx_key2 的 情况 类 似 ， 我 们 也 需要 计算 使 用 idx_keyl 时 需要 访问 的 范围 区 间 数 量 以 及 需要 回 表 的 记录 
数 : 


。 范围 区 间 数 量 
使 用 idx_keyl 执行 查询 时 很 显然 有 3 个 单 点 区 间 ， 所 以 访问 这 3 个 范围 区 间 的 二 级 索引 付出 的 MO 成 本 就 是 : 


3x1.0= 3.0 


需要 回 表 的 记录 数 


由 于 使 用 idx keyl 时 有 3 个 单 点 区 间 ， 所 以 每 个 单 点 区 间 都 需要 查找 一 遍 对 应 的 二 级 索引 记录 数 : 
。 查找 单 点 区 间 [a ，’ a ] 对 应 的 二 级 索引 记录 数 


计算 单 点 区 间 对 应 的 二 级 索引 记录 数 和 计算 连续 学 围 区 间 对 应 的 二 级 索引 记录 数 是 一 样 的 ， 都 是 先 计算 
区 间 最 左 记录 和 区 间 最 右 记 录 ， 然 后 再 计算 它们 之 间 的 记录 数 ， 具 体 算法 上 边 都 路 明 过 了 ， 就 不 乾 述 
了 。 最 后 计算 得 到 单 点 区 间 [ a? ，’ a ] 对 应 的 二 级 索引 记录 数 是 : 35 。 

查找 单 点 区 间 [bp ， "bp 」 对 应 的 二 级 索引 记录 数 


与 上 同 理 ， 计 算得 到 本 单 点 区 间 对 应 的 记录 数 是 : 44 。 
" 查找 单 点 区 间 [cc ,， “ec ] 对 应 的 二 级 索引 记录 数 


与 上 同 理 ， 计 算得 到 本 单 点 区 间 对 应 的 记录 数 是 : 39 。 








所 以 ， 这 三 个 单 点 区 间 总 共 需 要 回 表 的 记录 数 就 是 : 


35 + 44+39=118 


读 取 这 些 二 级 索引 记录 的 CPU 成 本 就 是 : 
118 x 0.2 + 0.01 = 23.61 


得 到 总 共 需 要 回 表 的 记录 数 之 后 ， 就 要 考虑 : 
， 根据 这 些 记 录 里 的 主键 值 到 聚 艇 索引 中 做 回 表 操 作 


所 需 的 1/0 成 本 就 是 : 
118 x 1.0 = 118.0 
。 回 表 操作 后 得 到 的 完整 用 户 记录 ， 然 后 再 比较 其 他 搜索 条 件 是 否 成 立 
此 步骤 对 应 的 CPU 成 本 就 是 : 
118 x 0.2 = 23.6 


所 以 本 例 中 使 用 idx_keyl 执行 查询 的 成 本 就 如 下 所 示 : 




















。 I/0 成 本 : 
3.0 + 118 x 1.0 = 121.0 (范围 区 间 的 数量 + 预 估 的 二 级 索引 记录 条 数 ) 
。 CPU 成 本 : 





118 x 0.2 + 0.01 + 118 x 0.2 = 47.21 ( 读 取 二 级 索引 记录 的 成 本 + 读 取 并 检测 回 表 后 聚 簇 
索引 记录 的 成 本 ) 


综 上 所 述 ,使 用 idx_key1 执行 查询 的 总 成 本 就 是 : 


121,0:+ .47.21 =-168. 21 





起 区 方才 3/HFf (Index Merge) 


本 例 中 有 关 keyl 和 key2 的 搜索 条 件 是 使 用 AND 连接 起 来 的 ， 而 对 于 idx_keyl 和 idx_key2 都 是 范围 查询 ,也 
就 是 说 查找 到 的 二 级 索引 记录 并 不 是 按照 主键 值 进行 排序 的 ， 并 不 满足 使 用 Intersection 索引 合并 的 条 件 ， 所 
以 并 不 会 使 用 索引 合并 。 


小 贴 士 : 
MySQL 查 询 优化 器 计算 索引 合并 成 本 的 算法 也 比较 麻烦 ， 所 以 我 们 这 也 就 不 展开 路 明 了 。 












































12.2.2.4 4. 对 比 各 种 执行 方案 的 代价 ， 找 出 成 本 最 低 的 那 一 个 
下 边 把 执行 本 例 中 的 查询 的 各 种 可 执行 方案 以 及 它们 对 应 的 成 本 列 出 来 : 


。 全 表 扫 描 的 成 本 : 2037.7 
。 使 用 idx_key2 的 成 本 : 134. 01 
。 使 用 idx_ keyl 的 成 本 : 168. 21 


很 显然 ， 使 用 idx_key2 的 成 本 最 低 ， 所 以 当然 选择 idx_key2 来 执行 查询 。 


小 贴 士 : 

考虑 到 大 家 的 阅读 体验 ， 为 了 最 大 限度 的 减少 大 家 在 理解 优化 器 工作 原理 的 过 程 中 遇 到 的 懂 通 情况 ， 
里 对 优化 器 在 单 表 查询 中 对 比 各 种 执行 方案 的 代价 的 方式 稍稍 的 做 了 简化 ， 不 过 毕 竞 大 部 分 同学 不 需 
去 看 MySQL 的 源码 ， 把 大 致 的 精神 传递 正确 就 好 了 哈 。 
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12.2.3 基于 索引 统计 数据 的 成 本 计算 


有 时 候 使 用 索引 执行 查询 时 会 有 许多 单 点 区 间 ， 比 如 使 用 IN 语句 就 很 容易 产生 非常 多 的 单 点 区 间 ， 比 如 下 边 这 
个 查询 (下 边 查询 语句 中 的 .. ， 表示 还 有 很 多 参数 ) : 


SELECT x* FROM single table WHERE keyl IN (aal’, aa2 ， ’aa3’, ... ， "222 ); 


很 显然 ， 这 个 查询 可 能 使 用 到 的 索引 就 是 idx_keyl ， 由 于 这 个 索引 并 不 是 唯一 二 级 索引 ， 所 以 并 不 能 确定 一 个 
单 点 区 间 对 应 的 二 级 索引 记录 的 条 数 有 多 少 ， 需 要 我 们 去 计算 。 计 算 方式 我 们 上 边 已 经 介绍 过 了 ， 就 是 先 获取 索 
引 对 应 的 B+ 树 的 区 间 最 左 记 录 和 区 间 最 右 记 录 ， 然 后 再 计算 这 两 条 记录 之 间 有 多 少 记 录 (记录 条 数 少 的 时 候 
可 以 做 到 精确 计算 ， 多 的 时 候 只 能 估算 ) 。 设 计 MySQL 的 大 叔 把 这 种 通过 直接 访问 索引 对 应 的 B+ 树 来 计算 某 个 
范围 区 间 对 应 的 索引 记录 条 数 的 方式 称 之 为 index dive 。 


小 贴 士 : 
dive 直 译 为 中 文 的 意思 是 跳水 、 俯 冲 的 意思 ， 原 谅 我 的 英文 水 平 提 急 ， 我 实在 不 知道 怎么 翻译 index d 
ive， 索 引 跳 水 ?索引 俯冲 ?好 像 都 不 太 合 适 ， 所 以 压根 儿 就 不 翻译 了 。 不 过 大 家 要 意 会 index dive 就 
是 直接 利用 索引 对 应 的 B+ 树 来 计算 某 个 范围 区 间 对 应 的 记录 条 数 。 




















































































































有 零星 几 个 单 点 区 间 的 话 ， 使 用 index dive 的 方式 去 计算 这 些 单 点 区 间 对 应 的 记录 数 也 不 是 什么 问题 ， 可 是 你 
架 不 住 有 的 孩子 数 足 了 劲 往 IN 语句 里 塞 东 西 呀 ， 我 就 见 过 有 的 同学 写 的 IN 语句 里 有 20000 个 参数 的 网 哆 ， 这 
就 意味 着 MySQL 的 查询 优化 器 为 了 计算 这 些 单 点 区 间 对 应 的 索引 记录 条 数 ， 要 进行 20000 次 index dive 操作 ， 
这 性 能 损耗 可 就 大 了 ， 搞 不 好 计算 这 些 单 点 区 间 对 应 的 索引 记录 条 数 的 成 本 比 直接 全 表 扫 描 的 成 本 都 大 了 。 设 计 
MySQL 的 大 叔 们 多 聪明 啊 ， 他 们 当然 考虑 到 了 这 种 情况 ， 所 以 提供 了 一 个 系统 变量 

eq range index dive limit ， 我 们 看 一 下 在 MySQL 5. 7. 21 中 这 个 系统 变量 的 默认 值 : 





mysql> SHOW VARIABLES LIKE ’ %dive% ; 





Variable name | Value | 





eq range index dive limit | 200 | 











1 row in set (0. 08 sec) 


也 就 是 说 如 果 我 们 的 IN 语句 中 的 参数 个 数 小 于 200 个 的 话 ， 将 使 用 index dive 的 方式 计算 各 个 单 点 区 间 对 应 的 
记录 条 数 ， 如 果 大 于 或 等 于 200 个 的 话 ， 可 就 不 能 使 用 index dive 了 ， 要 使 用 所 谓 的 索引 统计 数据 来 进行 估算 。 
怎么 个 估算 法 ? 继续 往 下 看 。 


像 会 为 每 个 表 维护 一 份 统计 数据 一 样 ， MySQL 也 会 为 表 中 的 每 一 个 索引 维护 一 份 统计 数据 ， 查 看 某 个 表 中 索引 的 
统计 数据 可 以 使 用 SHOW INDEX FROM 表 名 的 语法 ， 比 如 我 们 查看 一 下 single_table 的 各 个 索引 的 统计 数据 可 以 


这 么 写 : 


mysql> SHOW INDEX FROM single table; 













































































Table Non unique | Key name Seq in _ index | Column name | Collation | Card 
inality | Sub part | Packed | Null | Index type | Comment | Index comment 
single table 0 | PRIMARY 1 id A 
9693 | NULL | NULL | | BTREE | 
single table 0 idx key2 1 | key2 A 
9693 | NULL | NULL | YES | BTREE | | 
single table 1 idx keyl 1 | keyl A 
968 | NULL | NULL | YES | BTREE | | | 
single table 1 idx key3 1 | key3 A 
799 | NULL | NULL | YES | BTREE | | | 
single table 1 idx key part 1 | key part!l A 
9673 | ULL | NULL | YES | BTREE | | | 
single table 1 idx key part 2 | key part2 A 
9999 | ULL | NULL | YES | BTREE | | | 
single table 1 idx key part 3 | key part3 人 
10000 | NULL | NULL | YES | BTREE | | 
7 rows in set (0.01 sec) 
哇 喇 ， 竟 然 有 有 这么 多 属性 ， 不 过 好 在 这 些 属性 都 不 难 理解 ， 我 们 就 都 介绍 一 遍 吧 : 
属性 名 描述 
Table 索引 所 属 表 的 名 称 。 
Non_unique 索引 列 的 值 是 否 是 唯一 的 ， 聚 簇 索 引 和 唯一 二 级 索引 的 该 列 值 为 0， 普通 二 级 索引 该 列 值 为 1 。 


Key_name 


Seq_in index 


Column name 


Collation 


Cardinality 


Sub part 


Packed 
Null 
Index type 
Comment 


Index_comment 


上 述 属性 除了 Packed 大 家 可 能 看 不 懂 以 外 ， 
跳 过 了 啥 东西 。 其 实 我 们 现在 最 在 意 的 是 Cardinality 属性 ， 
引 列 中 不 重复 值 的 个 数 。 比 如 对 于 一 个 一 万 行 


索引 的 名 称 。 


索引 列 在 索引 中 的 位 置 ， 从 1 开始 计数 。 比 如 对 于 联合 索引 idx_key_part ， 来 说 ， key_partl 、 key_part2 
和 key_part3 对 应 的 位 置 分 别 是 1、2、3。 
索引 列 的 名 称 。 


索引 列 中 的 值 是 按照 何 种 排序 方式 存放 的 ， 值 为 A 时 代表 升序 存放 ， 为 NULL 时 代表 降序 存放 。 
索引 列 中 不 重复 值 的 数量 。 后 边 我 们 会 重点 看 这 个 属性 的 。 


对 于 存储 字符 串 或 者 字 节 串 的 列 来 说 ， 有 时 候 我 们 只 想 对 这 些 串 的 前 n 个 字符 或 字 节 建立 索引 ， 这 个 属性 表示 
的 就 是 那个 n 值 。 如 果 对 完整 的 列 建立 索引 的 话 该 属性 的 值 就 是 NULL 。 


索引 列 如 何 被 压缩 ， NULL 值 表示 未 被 压缩 。 这 个 属性 我 们 暂时 不 了 解 ， 可 以 先 忽 略 掉 。 
该 索引 列 是 否 允 许 存储 NULL 值 。 

使 用 索引 的 类 型 ,我们 最 常见 的 就 是 BTREE ， 其 实 也 就 是 B+ 树 索引 。 

索引 列 注释 信息 。 

索引 注释 信息 。 

应 该 没有 哈 看 不 懂 的 了 ， 如 果 有 的 话 肯 定 是 大 家 看 前 边 文章 的 时 候 


Cardinality 直译 过 来 就 是 基数 的 意思， 表示 索 


记录 的 表 来 说 ， 某 个 索引 列 的 Cardinality 属性 是 10000 ， 那 意味 


着 该 列 中 没有 重复 的 值 ， 如 果 Cardinality 属性 是 1 的 话 ， 就 意味 着 该 列 的 值 全 部 是 重复 的 。 不 过 需要 注意 的 
是 ， 对 于 InnoDB 人 存储 引擎 来 说 ， 使 用 SHOW INDEX 语 句 展示 出 来 的 某 个 索引 列 的 Cardinality 属 性 是 一 个 估计 
值 ， 并 不 是 精确 的 。 关 于 这 个 Cardinality 属性 的 值 是 如 何 被 计算 出 来 的 我 们 后 边 再 说 ， 先 看 看 它 有 什么 用 途 。 


前 边 说 道 ， 当 IN 语句 中 的 参数 个 数 大 于 或 等 于 系统 变量 eq_ range index_dive limit 的 值 的 话 ， 就 不 会 使 用 
index dive 的 方式 计算 各 个 单 点 区 间 对 应 的 索引 记录 条 数 ， 而 是 使 用 索引 统计 数据 ， 这 里 所 指 的 索引 统计 数据 
指 的 是 这 两 个 值 : 


。 使 用 SHOW TABLE STATUS 展示 出 的 Rows 值 ， 也 就 是 一 个 表 中 有 多 少 条 记录 。 


这 个 统计 数据 我 们 在 前 边 路 轨 全 表 扫 摘 成 本 的 时 候 说 过 很 多 遍 了 ， 就 不 蓝 述 了 。 
使 用 SHOW INDEX 语句 展示 出 的 Cardinality 属性 。 


结合 上 一 个 Rows 统计 数据 ， 我 们 可 以 针对 索引 列 ， 计 算出 平均 一 个 值 重复 多 少 次 。 


个 值 的 重复 次 数 之 Rows 二 Cardinality 























以 single table 表 的 idx_keyl 索引 为 例 ， 它 的 Rows 值 是 9693 ， 它 对 应 索引 列 keyl 的 Cardinality 值 是 
968 ， 所 以 我 们 可 以 计算 keyl 列 平均 单个 值 的 重复 次 数 就 是 : 


9693 二 968 、 10 (条 ) 
此 时 再 看 上 边 那 条 查询 语句 : 
SELECT x* FROM single table WHERE keyl IN (aal’, "aa2 ， aa3’, ... ， 2722 ); 


假设 人 语句 中 有 20000 个 参数 的 话 ， 就 直接 使 用 统计 数据 来 估算 这 些 参数 需要 单 点 区 间 对 应 的 记录 条 数 了 ， 每 
个 参数 大 约 对 应 10 条 记录 ， 所 以 总 共 需 要 回 表 的 记录 数 就 是 : 


20000 x 10 = 200000 


使 用 统计 数据 来 计算 单 点 区 间 对 应 的 索引 记录 条 数 可 比 index dive 的 方式 简单 多 了 ,但 是 它 的 致命 弱点 就 是 : 
不 精确 ! 。 使 用 统计 数据 算出 来 的 查询 成 本 与 实际 所 需 的 成 本 可 能 相差 非常 大 。 


小 贴 士 : 

大 家 需要 注意 一 下 ， 在 MySQL 5.7.3 以 及 之 前 的 版 本 中 ，eq_range_index_dive_limit 的 默认 值 为 10， 之 
后 的 版 本 默认 值 为 200。 所 以 如 果 大 家 采用 的 是 5. 7.3 以 及 之 前 的 版 本 的 话 ， 很 容易 采用 索引 统计 数据 而 
不 是 index dive 的 方式 来 计算 查询 成 本 。 当 你 的 查询 中 使 用 到 了 HI 查询， 但 是 却 实际 没有 用 到 索引 ， 就 
应 该 考虑 一 下 是 不 是 由 于 eq range index dive limit 值 太 小 导致 的 。 


12.3 连接 查询 的 成 本 


12.3.1 准备 工作 


连接 查询 至 少 是 要 有 两 个 表 的 ， 只 有 一 个 single_table 表 是 不 够 的 ， 所 以 为 了 故事 的 顺利 发 展 ， 我 们 直接 构造 
一 个 和 single_table 表 一 模 一 样 的 single_table2 表 。 为 了 简便 起 见 ， 我 们 把 single_table 表 称 为 sl 表 ， 
把 single table2 表 称 为 s2 表 。 






































































































































12.3.2 Condition filtering 介 绍 
我 们 前 边 说 过 ， MySQL 中 连接 查询 采用 的 是 同僚 循环 连接 算法 ， 驱 动 表 会 被 访问 一 次 ， 被 驱动 表 可 能 会 被 访问 多 
次 ， 所 以 对 于 两 表 连 接 查 询 来 说 ， 它 的 查询 成 本 由 下 边 两 个 部 分 构成 : 

。 单 次 查询 驱动 表 的 成 本 

。 多 次 查询 被 驱动 表 的 成 本 (具体 查询 多 少 次 取决 于 对 驱动 表 查 询 的 结果 集中 有 多 少 条 记录 ) 


我 们 把 对 驱动 表 进 行 查询 后 得 到 的 记录 条 数 称 之 为 驱动 表 的 扇 出 (英文 名 : fanout ) 。 很 显然 驱动 表 的 扇 出 值 
越 小 ， 对 被 驱动 表 的 查询 次 数 也 就 越 少 ， 连 接 查 询 的 总 成 本 也 就 越 低 。 当 查询 优化 器 想 计 算 整 个 连接 查询 所 使 用 
的 成 本 时 ， 就 需要 计算 出 驱动 表 的 扇 出 值 ， 有 的 时 候 扇 出 值 的 计算 是 很 容易 的 ， 比 如 下 边 这 两 个 查询 : 


。 查询 一 : 





SELECT * FROM single table AS sl INNER JOIN single _ table2 AS s2; 


假设 使 用 sl 表 作为 驱动 表 ， 很 显然 对 驱动 表 的 单 表 查 询 只 能 使 用 全 表 扫 描 的 方式 执行 ， 驱 动 表 的 扇 出 值 也 
很 明确 ， 那 就 是 驱动 表 中 有 和 多少 记录 ， 扇 出 值 就 是 多 少 。 我 们 前 边 说 过 ， 统 计数 据 中 sl 表 的 记录 行 数 是 
9693 ， 也 就 是 说 优化 器 就 直接 会 把 9693 当 作 在 sl 表 的 扇 出 值 。 

。 查询 二 : 


SELECT x* FROM single table AS sl INNER JOIN single _ table2 AS S2 
WHERE sl.key2 >10 AND sl1.key2《 1000; 


仍然 假设 sl 表 是 驱动 表 的 话 ， 很 显然 对 驱动 表 的 单 表 查 询 可 以 使 用 idx_key2 索引 执行 查询 。 此 时 
idx_key2 的 范围 区 间 (10，1000) 中 有 多 少 条 记录 ， 那 么 扇 出 值 就 是 多 少 。 我 们 前 边 计 算 过 ,满足 
idx_key2 的 范围 区 间 (10，1000) 的 记录 数 是 95 条 ， 也 就 是 说 本 查询 中 优化 器 会 把 95 当 作 驱动 表 sl 的 扇 

出 值 。 


事情 当然 不 会 总 是 一 帆 风 顺 的 ， 要 不 然 剧情 就 大 平淡 了 。 有 的 时 候 扇 出 值 的 计算 就 变 得 很 玉 手 ， 比 方 说 下 边 几 个 
查询 : 
。 查询 三 : 


SELECT * FROM single table AS sl INNER JOIN single table2 AS S2 
WHERE sl. common field > "xyz ; 


本 查询 和 查询 一 类 似 ， 只 不 过 对 于 驱动 表 sl 多 了 一 个 common field > “xyz” 的 搜索 条 件 。 查 询 优 化 器 又 
不 会 真正 的 去 执行 查询 ， 所 以 它 只 能 猜 这 9693 记录 里 有 多 少 条 记录 满足 common_field >’xyz” 条 件 。 
查询 四 : 





SELECT * FROM single table AS sl INNER JOIN single table2 AS S2 
WHERE sl. key2 > 10 AND sl. key2 《< 1000 AND 


sl. common field > "xyz ; 


本 查询 和 查询 二 类 似 ， 只 不 过 对 于 驱动 表 sl 也 多 了 一 个 common field > "xyz” 的 搜索 条 件 。 不 过 因为 本 
查询 可 以 使 用 idx_key2 索引 ， 所 以 只 需要 从 符合 二 级 索引 范围 区 间 的 记录 中 猜 有 多 少 条 记录 符合 
common _ field >" xyz” 条件， 也 就 是 只 需要 猜 在 95 条 记录 中 有 多 少 符合 common field > xyz” 条 件 。 

。 查询 五 : 


SELECT * FROM single table AS sl INNER JOIN single table2 AS S2 
WHERE sl. key2 > 10 AND Sl.key2《 1000 AND 
sl.keyl IN (a, pb， c) AND 
sl. common field > "xyz ; 
本 查询 和 查询 二 类 似 ， 不 过 在 驱动 表 sl 选取 idx_key2 索引 执行 查询 后 ， 优 化 器 需要 从 符合 二 级 索引 范围 
区 间 的 记录 中 猜 有 多 少 条 记录 符合 下 边 两 个 条 件 : 
= keyl IN (a, "b,c) 


mn common field > ’xyz 


也 就 是 优化 器 需要 猜 在 95 条 记录 中 有 多 少 符合 上 述 两 个 条 件 的 。 





说 了 这 么 多 ， 其 实 就 是 想 表 达 在 这 两 种 情况 下 计算 驱动 表 扇 出 值 时 需要 靠 猜 : 


。 如 果 使 用 的 是 全 表 扫 描 的 方式 执行 的 单 表 查询 ， 那 么 计算 驱动 表 扇 出 时 需要 猜 满足 搜索 条 件 的 记录 到 底 有 多 
少 条 。 

。 如 果 使 用 的 是 索引 执行 的 单 雪 扫描 ， 那 么 计算 驱动 表 扇 出 的 时 候 需要 猜 满足 除 使 用 到 对 应 索引 的 搜索 条 件 外 
的 其 他 搜索 条 件 的 记录 有 多 少 条 。 


设计 MySQL 的 大 叔 把 这 个 猜 的 过 程 称 之 为 condition filtering 。 当 然 ， 这 个 过 程 可 能 会 使 用 到 索引 ， 也 可 能 
使 用 到 统计 数据 ， 也 可 能 就 是 设计 MySQL 的 大 叔 单 纯 的 瞎 猜 ， 整 个 评估 过 程 挺 复 杂 的 ， 再 仔细 的 嘴 叫 一 遍 可 能 引 
起 大 家 的 生理 不 适 ， 所 以 我 们 就 跳 过 了 哈 。 


小 贴 士 : 

在 MySQL 5.7 之 前 的 版 本 中 ， 碍 询 优化 器 在 计算 驱动 表 扇 出 时 ， 如 果 是 使 用 全 表 扫 描 的 话 ， 就 直接 使 用 
表 中 记录 的 数量 作为 扇 出 值 ， 如 果 使 用 索引 的 话 ， 就 直接 使 用 满足 范围 条 件 的 索引 记录 条 数 作 为 扇 出 
值 。 在 MySQL 5. 7 中 ， 设 计 MySQL 的 大 叔 引 入 了 这 个 condition filtering 的 功能 ， 就 是 还 要 猜 一 猪 剩余 
的 那些 搜索 条 件 能 把 驱动 表 中 的 记录 再 过 滤 多 少 条 ， 其 实 本 质 上 就 是 为 了 让 成 本 估算 更 精确 。 

我 们 所 说 的 纯粹 瞎 猜 其 实 是 很 不 严谨 的 ， 设 计 MySQL 的 大 叔 们 称 之 为 启发 式 规则 (heuristic) ， 大 家 有 
兴趣 的 可 以 再 深入 了 解 一 下 哈 。 
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12.3.3 两 表 连 接 的 成 本 分 析 
连接 查询 的 成 本 计算 公式 是 这 样 的 : 
连接 查询 总 成 本 = 单 次 访问 驱动 表 的 成 本 + 驱动 表 肩 出 数 x 单 次 访问 被 驱动 表 的 成 本 
对 于 左 (外 ) 连接 和 右 (外 ) 连接 查询 来 说 ， 它 们 的 驱动 表 是 固定 的 ， 所 以 想 要 得 到 最 优 的 查询 方案 只 需要 : 
。 分别 为 驱动 表 和 被 驱动 表 选 择 成 本 最 低 的 访问 方法 。 
可 是 对 于 内 连接 来 说 ， 驱 动 表 和 被 驱动 表 的 位 置 是 可 以 互 换 的 ， 所 以 需要 考虑 两 个 方面 的 问题 : 


。 不 同 的 表 作 为 驱动 表 最 终 的 查询 成 本 可 能 是 不 同 的 ， 也 就 是 需要 考虑 最 优 的 表 连 接 顺 序 。 
。 然后 分 别 为 驱动 表 和 被 驱动 表 选 择 成 本 最 低 的 访问 方法 。 


很 显然 ， 计 算 内 连接 查询 成 本 的 方式 更 麻烦 一 些 ， 下 边 我 们 就 以 内 连接 为 例 来 看 看 如 何 计算 出 最 优 的 连接 查询 方 

















小 贴 士 : 
左 〈 外 ) 连接 和 右 ( 外 )〉 连接 查询 在 某 些 特殊 情况 下 可 以 被 优化 为 内 连接 查询 ， 我 们 在 之 后 的 章节 中 会 
仔细 啼 四 的 ， 稍 安 勿 躁 。 


比如 对 于 下 边 这 个 查询 来 说 : 


SELECT * FROM single table AS sl INNER JOIN single _ table2 AS S2 
ON sl.keyl = S2. common field 
WHERE sl. key2 > 10 AND sl.key2《“ 1000 AND 
s2. key2 > 1000 AND s2. key2 《< 2000; 












































可 以 选择 的 连接 顺序 有 两 种 : 


。 sl 连接 s2 ， 也 就 是 sl 作为 驱动 表 ， s2 作为 被 驱动 表 。 
。 s2 连接 s1 ， 也 就 是 s2 作为 驱动 表 ， sl 作为 被 驱动 表 。 


查询 优化 器 需要 分 别 考虑 这 两 种 情况 下 的 最 优 查 询 成 本 ， 然 后 选取 那个 成 本 更 低 的 连接 顺序 以 及 该 连接 顺序 下 各 
个 表 的 最 优 访问 方法 作为 最 终 的 查询 计划 。 我 们 分 别 来 看 一 下 (定性 的 分 析 一 下 ， 不 像 分 析 单 表 查 询 那 样 定量 的 
分 析 了 ) : 


。 使 用 sl 作为 驱动 表 的 情况 


"分析 对 于 驱动 表 的 成 本 最 低 的 执行 方案 


首先 看 一 下 涉及 sl 表单 表 的 搜索 条 件 有 哪些 : 
o sl.key2 > 10 AND sl. key2 < 1000 


所 以 这 个 查询 可 能 使 用 到 idx_key2 索引 ， 从 全 表 扫 描 和 使 用 idx_key2 这 两 个 方案 中 选 出 成 本 最 低 
的 那个 ， 这 个 过 程 我 们 上 边 都 踪 明 过 了 ， 很 显然 使 用 idx_key2 执行 查询 的 成 本 更 低 些 。 
” 然后 分 析 对 于 被 驱动 表 的 成 本 最 低 的 执行 方案 


此 时 涉及 被 驱动 表 idx_key2 的 搜索 条 件 就 是 : 
o。 s2. common field = 常数 (这 是 因为 对 驱动 表 sl 结果 集中 的 每 一 条 记录 ， 都 需要 进行 一 次 被 驱动 
表 s2 的 访问 ， 此 时 那些 涉及 两 表 的 条 件 现在 相当 于 只 涉及 被 驱动 表 s2 了 。) 
o s2.key2 > 1000 AND s2. key2 《< 2000 


很 显然 ， 第 一 个 条 件 由 于 common_field 没有 用 到 索引 ， 所 以 并 没有 什么 卵 用 ， 此 时 访问 
single_table2 表 时 可 用 的 方案 也 是 全 表 扫 描 和 使 用 idx_key2 两 种 ， 很 显然 使 用 idx_key2 的 成 
本 更 小 。 


所 以 此 时 使 用 single_table 作为 驱动 表 时 的 总 成 本 就 是 (暂时 不 考虑 使 用 join buffer 对 成 本 的 影 
响 ) : 


使 用 idx key2 访 问 s1 的 成 本 + sl 的 扇 出 X 使 用 idx key2 访 问 s2 的 成 本 


。 使 用 s2 作为 驱动 表 的 情况 
”分 析 对 于 驱动 表 的 成 本 最 低 的 执行 方案 


首先 看 一 下 涉及 s2 表单 表 的 搜索 条 件 有 哪些 : 
o s2.key2 > 10 AND s2.key2《 1000 








所 以 这 个 查询 可 能 使 用 到 idx key2 索引 ， 从 全 表 扫 描 和 使 用 idx_key2 这 两 个 方案 中 选 出 成 本 最 低 
的 那个 ， 这 个 过 程 我 们 上 边 都 踪 胃 过 了 ， 很 显然 使 用 idx_key2 执行 查询 的 成 本 更 低 些 。 
” 然后 分 析 对 于 被 驱动 表 的 成 本 最 低 的 执行 方案 


此 时 涉及 被 驱动 表 idx_key2 的 搜索 条 件 就 是 : 
o sl.keyl = 常数 
o sl.key2 > 1000 AND sl. key2 《< 2000 


这 时 就 很 有 趣 了 ， 使 用 idx_keyl 可 以 进行 ref 方式 的 访问 ,使 用 idx_key2 可 以 使 用 range 方式 
的 访问 。 这 是 优化 器 需要 从 全 表 扫 描 、 使 用 idx keyl1 、 使 用 idx_key2 这 几 个 方案 里 选 出 一 个 成 本 
最 低 的 方案 。 这 里 有 个 问题 啊 ， 因 为 idx_key2 的 范围 区 间 是 确定 的 : (10，1000) ， 怎 么 计算 使 
用 idx_key2 的 成 本 我 们 上 边 已 经 说 过 了 ,可 是 在 没有 真正 执行 查询 前 ， sl. keyl = 常数 中 的 常 
数 值 我 们 是 不 知道 的 ， 怎 么 衡量 使 用 idx_keyl 执行 查询 的 成 本 呢 ? 其 实 很 简单 ， 直 接 使 用 索引 统 
计数 据 就 好 了 (就 是 索引 列 平均 一 个 值 重复 多 少 次 ) 。 一 般 情 况 下 ， ref 的 访问 方式 要 比 range 成 
本 最 低 ， 这 里 假设 使 用 idx_keyl 进行 对 s2 的 访问 。 


所 以 此 时 使 用 single_table 作为 驱动 表 时 的 总 成 本 就 是 : 
使 用 idx_key2 访 问 s2 的 成 本 + s2 的 扇 出 X 使 用 idx_keyl 访 问 sl 的 成 本 


最 后 优化 器 会 比较 这 两 种 方式 的 最 优 访问 成 本 ， 选 取 那 个 成 本 更 低 的 连接 顺序 去 真正 的 执行 查询 。 从 上 边 的 计算 
过 程 也 可 以 看 出 来 ， 连 接 查 询 成 本 占 大 头 的 其 实 是 驱动 表 扇 出 数 x 单 次 访问 被 驱动 表 的 成 本 ， 所 以 我 们 的 优化 
重点 其 实 是 下 边 这 两 个 部 分 : 


。 尽量 减少 驱动 表 的 扇 出 
。 对 被 驱动 表 的 访问 成 本 尽量 低 




















这 一 点 对 于 我 们 实际 书写 连接 查询 语句 时 十 分 有 用 ， 我 们 需要 尽量 在 被 驱动 表 的 连接 列 上 建立 索引 ， 这 样 就 
可 以 使 用 ref 访问 方法 来 降低 访问 被 驱动 表 的 成 本 了 。 如 果 可 以 ， 被 驱动 表 的 连接 列 最 好 是 该 表 的 主键 或 者 
唯一 二 级 索引 列 ， 这 样 就 可 以 把 访问 被 驱动 表 的 成 本 降 到 更 低 了 。 


12.3.4 多 表 连 接 的 成 本 分 析 
首先 要 考虑 一 下 多 表 连 接 时 可 能 产生 出 多 少 种 连接 顺序 : 
。 对 于 两 表 连接 ， 比 如 表 A 和 表 B 连 接 


只 有 AB、BA 这 两 种 连接 顺序 。 其 实 相 当 于 2 x 1 = 2 种 连接 顺序 。 
。 对 于 三 表 连 接 ， 比 如 表 A、 表 B、 表 C 进 行 连接 


有 ABC、ACB、BAC、BCA、CAB、CBA 这 么 6 种 连接 顺序 。 其 实 相当 于 3 x 2 x 1 = 6 种 连接 顺序 。 
。 对 于 四 表 连 接 的 话 ， 则 会 有 4 Xx 3 x 2 x 1 = 24 种 连接 顺序 。 
对 于 n 表 连 接 的 话 ， 则 有 n Xx Ca-l) x -2) x 。。。 x 1 种 连接 顺序 ， 就 是 n 的 阶乘 种 连接 顺序 ， 
也 就 是 n! 。 


有 n 个 表 进 行 连接 ， MySQL 查询 优化 器 要 每 一 种 连接 顺序 的 成 本 都 计算 一 遍 么 ? 那 可 是 n! 种 连接 顺序 呀 。 其 实 
真 的 是 要 都 算 一 遍 ， 不 过 设计 MySQL 的 大 叔 们 想 了 很 多 办 法 减少 计算 非常 多 种 连接 顺序 的 成 本 的 方法 : 


。 提前 结束 某 种 顺序 的 成 本 评估 


MySQL 在 计算 各 种 链接 顺序 的 成 本 之 前 ,会 维护 一 个 全 局 的 变量 ， 这 个 变量 表示 当前 最 小 的 连接 查询 成 本 。 
如 果 在 分 析 某 个 连接 顺序 的 成 本 时 ， 该 成 本 已 经 超过 当前 最 小 的 连接 查询 成 本 ， 那 就 压根 儿 不 对 该 连接 顺序 
继续 往 下 分 析 了 。 比 方 说 A、B、C 三 个 表 进 行 连接 ， 已 经 得 到 连接 顺序 ABC 是 当前 的 最 小 连接 成 本 ， 比 方 

说 10.0 ， 在 计算 连接 顺序 BCA 时 ， 发 现 B 和 C 的 连接 成 本 就 已 经 大 于 10. 0 时 ， 就 不 再 继续 往 后 分 析 BCA 
这 个 连接 顺序 的 成 本 了 。 


。 系统 变量 optimizer search depth 


为 了 防止 无 穷 无 尽 的 分 析 各 种 连接 顺序 的 成 本 ,设计 MySQL 的 大 叔 们 提出 了 optimizer_search_depth 系统 
变量 ， 如 果 连 接 表 的 个 数 小 于 该 值 ， 那 么 就 继续 穷 举 分 析 每 一 种 连接 顺序 的 成 本 ， 否 则 只 对 与 
optimizer_search_depth 值 相同 数量 的 表 进 行 穷 举 分 析 。 很 显然 ， 该 值 越 大 ， 成 本 分 析 的 越 精 确 ， 越 容易 
得 到 好 的 执行 计划 ， 但 是 消耗 的 时 间 也 就 越 长 ， 否 则 得 到 不 是 很 好 的 执行 计划 ， 但 可 以 省 掉 很 多 分 析 连 接 成 
本 的 时 间 。 

。 根据 某 些 规则 压根 儿 就 不 考虑 某 些 连接 顺序 


即使 是 有 上 边 两 条 规则 的 限制 ， 但 是 分 析 多 个 表 不 同 连接 顺序 成 本 花费 的 时 间 还 是 会 很 长 ， 所 以 设计 MySQL 
的 大 叔 干 脆 提 出 了 一 些 所 谓 的 启发 式 规则 (就 是 根据 以 往 经 验 指 定 的 一 些 规则 ) ， 凡 是 不 满足 这 些 规则 的 
连接 顺序 压根 儿 就 不 分 析 ， 这 样 可 以 极 大 的 减少 需要 分 析 的 连接 顺序 的 数量 ， 但 是 也 可 能 造成 错失 最 优 的 执 
行 计划 。 他 们 提供 了 一 个 系统 变量 optimizer_prune_level 来 控制 到 底 是 不 是 用 这 些 启 发 式 规则 。 


12.4 调节 成 本 单数 
我 们 前 边 之 介绍 了 两 个 成 本 常数 : 


。 读 取 一 个 页 面 花 费 的 成 本 默认 是 1.0 
。 检测 一 条 记录 是 否 符合 搜索 条 件 的 成 本 默认 是 0. 2 


其 实 除了 这 两 个 成 本 常数 ， MySQL 还 支持 好 多 呢 ， 它 们 被 存储 到 了 mysql 数据 库 (这 是 一 个 系统 数据 库 ， 我 们 之 
前 介绍 过 ) 的 两 个 表 中 : 


mysql> SHOW TABLES FROM mysql LIKE ’ %cost%’; 





Tables in mysql (%cost%) 





engine cost 


server _ cost 














2 rows in set (0.00 sec) 
我 们 在 第 一 章 中 就 说 过 ， 一 条 语句 的 执行 其 实 是 分 为 两 层 的 : 


。 server 层 


。 人 存储 引擎 层 
在 server 层 进行 连 接管 理 、 查 询 缓存 、 语 法 解析 、 查 询 优化 等 操作 ， 在 存储 引擎 层 执行 具体 的 数据 存 取 操 作 。 
也 就 是 说 一 条 语句 在 server 层 中 执行 的 成 本 是 和 它 操作 的 表 使 用 的 存储 引擎 是 没关系 的 ， 所 以 关于 这 些 操作 对 
应 的 成 本 常数 就 存储 在 了 server_cost 表 中 ， 而 依赖 于 存储 引擎 的 一 些 操作 对 应 的 成 本 常数 就 存储 在 了 
engine_cost 表 中 。 
12.4.1 mysql.server_cost 表 
server_cost 表 中 在 server 层 进 行 的 一 些 操作 对 应 的 成 本 常数 ， 具 体内 容 如 下 : 


mysql> SELECT x*¥ FROM mysql. server cost; 






































cost name cost value | last update comment 
disk temptable create cost ULL | 2018-01-20 12:03:21 | NULL 
disk temptable row cost ULL | 2018-01-20 12:03:21 | NULL 
key compare cost ULL | 2018-01-20 12:03:21 | NULL 
memory temptable create cost ULL | 2018-01-20 12:03:21 | NULL 
memory temptable row cost ULL | 2018-01-20 12:03:21 | NULL 
row evaluate cost ULL | 2018-01-20 12:03:21 | NULL 

















6 rows in set (0.05 sec) 
我 们 先 看 一 下 server_cost 各 个 列 都 分 别 是 什么 意思 : 
。 cost name 


表示 成 本 常数 的 名 称 。 


。 cost value 


表示 成 本 常数 对 应 的 值 。 如 果 该 列 的 值 为 NULL 的 话 ， 意 味 着 对 应 的 成 本 常数 会 采用 默认 值 。 


。 last update 
表示 最 后 更 新 记录 的 时 间 。 
。 comment 
注释 。 
从 server_cost 中 的 内 容 可 以 看 出 来 ， 目 前 在 server 层 的 一 些 操作 对 应 的 成 本 常数 有 以 下 几 种 : 


默认 


成 本 常数 名 称 什 


描述 


成 本 常数 名 称 描述 


40 0 “创建 基于 磁盘 的 临时 表 的 成 本 ， 如 果 增 大 这 个 值 的 话 会 让 优化 器 尽量 少 的 创建 基于 磁 
” ” 盘 的 临时 表 。 


1 0 ”向 基于 磁盘 的 临时 表 写 入 或 读 取 一 条 记录 的 成 本 ， 如 果 增 大 这 个 值 的 话 会 让 优化 器 尽 
” ”” 量 少 的 创建 基于 磁盘 的 临时 表 。 


0 1 ”两 条 记录 做 比较 操作 的 成 本 ， 多 用 在 排序 操作 上 ， 如 果 增 大 这 个 值 的 话 会 提升 
filesort 的 成 本 ， 让 优化 器 可 能 更 倾向 于 使 用 索引 完成 排序 而 不 是 filesort 。 


2 0 ”创建 基于 内 存 的 临时 表 的 成 本 ， 如 果 增 大 这 个 值 的 话 会 让 优化 器 尽量 少 的 创建 基于 内 
” ” 存 的 临时 表 。 


0 9 ”向 基于 内 存 的 临时 表 写 入 或 读 取 一 条 记录 的 成 本 ， 如 果 增 大 这 个 值 的 话 会 让 优化 器 尽 
””” 量 少 的 创建 基于 内 存 的 临时 表 。 


这 个 就 是 我 们 之 前 一 直 使 用 的 检测 一 条 记录 是 否 符合 搜索 条 件 的 成 本 ， 增 大 这 个 值 可 
能 让 优化 器 更 倾向 于 使 用 索引 而 不 是 直接 全 表 扫 描 。 


disk temptable create cost 
disk temptable row cost 
key compare _ cost 
memory temptable create cost 
memory temptable row cost 


row evaluate cost 0.2 


小 贴 士 : 

MySQL 在 执行 诸如 DISTINCT 查 询 、 分 组 查询 、Union 查 询 以 及 某 些 特殊 条 件 下 的 排序 查询 都 可 能 在 内 部 先 
创建 一 个 临时 表 ， 使 用 这 个 临时 表 来 辅助 完成 查询 (比如 对 于 DISTINCT 查 询 可 以 建 一 个 带 有 UNIQUE 索 引 
的 临时 表 ， 直 接 把 需要 去 重 的 记录 插入 到 这 个 临时 表 中 ， 插 入 完成 之 后 的 记录 就 是 结果 集 了 ) 。 在 数据 
量 大 的 情况 下 可 能 创建 基于 磁盘 的 临时 表 ， 也 就 是 为 该 临时 表 使 用 MyISAM、InnoDB 等 存储 引擎 ， 在 数据 
量 不 大 时 可 能 创建 基于 内 存 的 临时 表 ， 也 就 是 使 用 Memory 存 储 引 擎 。 关 于 更 多 临时 表 的 细节 我 们 并 不 打 
展开 路 叫 ， 因 为 展开 可 能 又 需要 好 几 万 字 了 ， 大 家 知道 创建 临时 表 和 对 这 个 临时 表 进 行 写 入 和 读 取 的 
操作 代价 还 是 很 高 的 就 行 了 。 


这 些 成 本 常数 在 server_cost 中 的 初始 值 都 是 NULL ， 意 味 着 优化 器 会 使 用 它们 的 默认 值 来 计算 某 个 操作 的 成 
本 ， 如 果 我 们 想 修改 某 个 成 本 常数 的 值 的 话 ， 需 要 做 两 个 步 又: 


。 对 我 们 感 兴趣 的 成 本 常数 做 更 新 操作 
比方 说 我 们 想 把 检测 一 条 记录 是 否 符合 搜索 条 件 的 成 本 增 大 到 0. 4 ， 那 么 就 可 以 这 样 写 更 新 语句 : 



























































































































































































































































UPDATE mysql. server cost 
SET cost value = 0.4 


WHERE cost name = ’row evaluate cost’; 
。 让 系统 重新 加 载 这 个 表 的 值 。 
使 用 下 边 语 句 即 可 : 
FLUSH OPTIMIZER COSTS; 

当然 ， 在 你 修改 完 某 个 成 本 常数 后 想 把 它们 再 改 回 默认 值 的 话 ， 可 以 直接 把 cost_value 的 值 设置 为 NULL ， 再 使 
用 FLUSH OPTIMIZER_COSTS 语句 让 系统 重新 加 载 它 就 好 了 。 
12.4.2 mysql.engine_cost 表 
engine_cost 表 表 中 在 存储 引擎 层 进行 的 一 些 操 作对 应 的 成 本 常数 ， 具 体内 容 如 下 : 


mysql> SELECT x* FROM mysql. engine cost; 











一 一 一 一 一 一 一 一 + 

engine name | device type | cost name cost value | last update 
comment | 
一 一 一 一 一 一 一 一 + 

default 0 | io block read cost NULL | 2018-01-20 12:03:21 
NULL | 

default 0 | memory block read cost NULL | 2018-01-20 12:03:21 
NULL | 

















2 rows in set (0.05 sec) 


与 server cost 相 比 ， engine cost 多 了 两 个 列 : 


。 engine name 列 


指 成 本 常数 适用 的 存储 引 警 名称。 如 果 该 值 为 default ， 意 味 着 对 应 的 成 本 常数 适用 于 所 有 的 存储 引擎 


。 device _ type 列 


指 存 储 引 警 使 用 的 设备 类 型 ， 这 主要 是 为 了 区 分 常规 的 机 械 硬盘 和 固态 硬盘 ， 不 过 在 MySQL 5. 7. 21 这 个 版 
本 中 并 没有 对 机 械 硬盘 的 成 本 和 固态 硬盘 的 成 本 作 区 分 ， 所 以 该 值 默认 是 0 。 


我 们 从 engine_cost 表 中 的 内 容 可 以 看 出 来 ， 目 前 支持 的 存储 引擎 成 本 常数 只 有 两 个 : 


成 本 常数 名 称 人 描述 


从 磁盘 上 读 取 一 个 块 对 应 的 成 本 。 请 注意 我 使 用 的 是 块 ， 而 不 是 页 这 个 词 儿 。 对 于 
iu block read cost 1 0 InnoDB 存储 引擎 来 说 ， 一 个 页 就 是 一 个 块 ， 不 过 对 于 MyISAM 存储 引 区 来 说 ”默认 是 以 


4096 字 节 作为 一 个 块 的 。 增 大 这 个 值 会 加 重 1/0 成 本 ， 可 能 让 优化 器 更 倾向 于 选择 使 用 索引 
执行 查询 而 不 是 执行 全 表 扫 描 。 


memory block_read_cost 1.0 与 上 一 个 参数 类 似 ， 只 不 过 衡量 的 是 从 内 存 中 读 取 一 个 块 对 应 的 成 本 。 
大 家 看 完 这 两 个 成 本 常数 的 默认 值 是 不 是 有 些 疑 惑 ， 怎 么 从 内 存 中 和 从 磁盘 上 读 取 一 个 块 的 默认 成 本 是 一 样 的 ， 
脑子 瓦特 了 ? 这 主要 是 因为 在 MySQL 目前 的 实现 中 ， 并 不 能 准确 预测 某 个 查询 需要 访问 的 块 中 有 哪些 块 已 经 加 载 


到 内 存 中 ， 有 哪些 块 还 停留 在 磁盘 上 ， 所 以 设计 MySQL 的 大 叔 们 很 粗暴 的 认为 不 管 这 个 块 有 没有 加 载 到 内 人 存 中 ， 


使 用 的 成 本 都 是 1. 0 ， 不 过 随 着 MySQL 的 发 展 ， 等 到 可 以 准确 预测 哪些 块 在 磁盘 上 ， 那 些 块 在 内 存 中 的 那 一 天 ， 
这 两 个 成 本 常数 的 默认 值 可 能 会 改 一 改 吧 。 


与 更 新 server_cost 表 中 的 记录 一 样 ， 我 们 也 可 以 通过 更 新 engine_cost 表 中 的 记录 来 更 改 关 于 存储 引擎 的 成 本 
常数 ， 我 们 也 可 以 通过 为 engine_cost 表 插 入 新 记录 的 方式 来 添加 只 针对 某 种 存储 引擎 的 成 本 常数 : 

。 插入 针对 某 个 存储 引擎 的 成 本 常数 

比如 我 们 想 增 大 InnoDB 存储 引 警 页面 1/0 的 成 本 ， 书 写 正常 的 插入 语句 即 可 : 


INSERT INTO mysql. engine cost 
VALUES ( InnoDB’, 0, "io block read cost ，2. 0， 
CURRENT_ TIMESTAMP, "increase Innodb I/0 cost’ ); 


。 让 系统 重新 加 载 这 个 表 的 值 。 
使 用 下 边 语句 即 可 : 


FLUSH OPTIMIZER COSTS; 


te 3 章 兵 马 未 动 ， 粮 日 先 行 -InnoDB 统 计数 据 是 如 何 收 


标签 : MySQL 是 怎样 运行 的 


我 们 前 边 啼 呆 查询 成 本 的 时 候 经 常用 到 一 些 统计 数据 ， 比 如 通过 SHOW TABLE STATUS 可 以 看 到 关于 表 的 统计 数 
据 ， 通 过 SHOW INDEX 可 以 看 到 关于 索引 的 统计 数据 ， 那 么 这 些 统计 数据 是 怎么 来 的 呢 ? 它 们 是 以 什么 方式 收集 
的 呢 ? 本 章 将 聚焦 于 InnoDB 存储 引擎 的 统计 数据 收集 策略 ， 看 完 本 章 大 家 就 会 明白 为 哈 前 边 老 说 InnoDB 的 统计 
言 息 是 不 精确 的 估计 值 了 ( 言 下 之 意 就 是 我 们 不 打算 介绍 MyISAM 存储 引擎 统计 数据 的 收集 和 存储 方式 ， 有 想 了 
解 的 同学 自己 个 儿 看 看 文档 哈 ) 。 


13.1 两 种 不 同 的 统计 数据 存储 方式 
InnopB 提供 了 两 种 存储 统计 数据 的 方式 : 
， 永 久 性 的 统计 数据 


这 种 统计 数据 存储 在 磁盘 上 ， 也 就 是 服务 器 重启 之 后 这 些 统计 数据 还 在 。 
非 永 久 性 的 统计 数据 


这 种 统计 数据 存储 在 内 存 中 ， 当 服务 器 关闭 时 这 些 这 些 统计 数据 就 都 被 清除 掉 了 ， 等 到 服务 器 重启 之 后 ， 在 
某 些 适当 的 场景 下 才 会 重新 收集 这 些 统计 数据 。 


设计 MySQL 的 大 叔 们 给 我 们 提供 了 系统 变量 innodb_stats_persistent 来 控制 到 底 采 用 哪 种 方式 去 存储 统计 数 
据 。 在 MySQL 5. 6. 6 之 前 ， innodb stats persistent 的 值 默认 是 OFF ， 也 就 是 说 InnoDB 的 统计 数据 默认 是 存 
储 到 内 存 的 ， 之 后 的 版 本 中 innodb_stats_persistent 的 值 默认 是 ON ， 也 就 是 统计 数据 默认 被 存储 到 磁盘 中 。 


不 过 InnoDB 默认 是 以 表 为 单位 来 收集 和 存储 统计 数据 的 ， 也 就 是 说 我 们 可 以 把 某 些 表 的 统计 数据 (以 及 该 表 的 
索引 统计 数据 ) 存储 在 磁盘 上 ， 把 另 一 些 表 的 统计 数据 存储 在 内 存 中 。 怎 么 做 到 的 呢 ? 我 们 可 以 在 创建 和 修改 表 
的 时 候 通 过 指定 STATS_PERSISTENT 属性 来 指明 该 表 的 统计 数据 存储 方式 : 





CREATE TABLE 表 名 (...) Engine=InnoDB，STATS_PERSISTENT = (1|0) ; 


ALTER TABLE 表 名 Engine=InnoDB,，STATS PERSISTENT = (1|0); 


当 STATS_PERSISTENT=1 时 ， 表 了 明 我 们 想 把 该 表 的 统计 数据 永久 的 存储 到 磁盘 上 ， 当 STATS_PERSISTENT=0 时 ， 表 
明 我 们 想 把 该 表 的 统计 数据 临时 的 存储 到 内 存 中 。 如 果 我 们 在 创建 表 时 未 指定 STATS_PERSISTENT 属性 ， 那 默认 
采用 系统 变量 innodb_stats_persistent 的 值 作为 该 属性 的 值 。 


13.2 基于 磁盘 的 永久 性 统计 数据 


当 我 们 选择 把 某 个 表 以 及 该 表 索 引 的 统计 数据 存放 到 磁盘 上 时 ， 实 际 上 是 把 这 些 统计 数据 存储 到 了 两 个 表 里 : 


mysql> SHOW TABLES FROM mysql LIKE ”innodb%” ; 





| Tables in mysql (innodb%) 








| innodb index stats 
| innodb table stats 





2 rows in set (0.01 sec) 


可 以 看 到 ， 这 两 个 表 都 位 于 mysql 系统 数据 库 下 边 ， 其 中 : 


innodb_table_stats 和 存储 了 关于 表 的 统计 数据 ， 每 一 条 记录 对 应 着 一 个 表 的 统计 数据 。 
innodb_index_stats 存储 了 关于 索引 的 统计 数据 ， 每 一 条 记录 对 应 着 一 个 索引 的 一 个 统计 项 的 统计 数据 。 


我 们 下 边 的 任务 就 是 看 一 下 这 两 个 表 里 边 都 有 什么 以 及 表 里 的 数据 是 如 何 生成 的 。 


13.2.1 innodb table_stats 


直接 看 一 下 这 个 innodb_table_stats 表 中 的 各 个 列 都 是 干 嘛 的 : 


字段 名 
database_ name 
table name 
last update 
n_rows 
clustered index size 


sum of other index sizes 





描述 

数据 库 名 

表 名 

本 条 记录 最 后 更 新 时 间 

表 中 记录 的 条 数 

表 的 聚 篮 索 引 占 用 的 页 面 数量 
表 的 其 他 索引 占用 的 页 面 数量 


注意 这 个 表 的 主键 是 (database_name, table_name) ， 也 就 是 innodb_table_stats 表 的 每 条 记录 代表 着 一 个 表 的 统 


计 人 信息。 我 们 直接 看 一 下 这 个 表 里 的 内 容 : 


mysql> SELECT x* FROM mysql. innodb table stats; 








table 


sizes 


| database name _name last update 


m of other index 





SU 











| mysql gtid executed | 2018-07-10 23:51:36 | 0 | 1 
0 | 

| sys sys config 2018-07-10 23:51:38 | 5 | 1 
0 | 

| xiaohaizi single table 2018-12-10 17:03:13 | 9693 | 97 
175 | 

















3 rows in set (0.01 sec) 


可 以 看 到 我 们 熟悉 的 single_table 表 的 统计 信息 就 对 应 着 mysql. innodb_table_stats 的 第 三 条 记录 。 几 个 重要 


统计 信息 项 的 值 如 下 : 


n_rows 的 值 是 9693 ， 表 明 single_table 表 中 大 约 有 9693 条 记录 ， 注 意 这 个 数据 是 估计 值 。 

。 clustered index size 的 值 是 97 ， 表 明 single table 表 的 聚 艇 索 引 占 用 97 个 页 面 ， 这 个 值 是 也 是 一 个 估 
计 值 。 

。 sum of other index sizes 的 值 是 175 ， 表 明 single table 表 的 其 他 索引 一 共 占 用 175 个 页 面 ， 这 个 值 是 
也 是 一 个 估计 值 。 





13.2.1.1 _n_rows 统 计 项 的 收集 
为 哈 老 强调 n_rows 这 个 统计 项 的 值 是 估计 值 呢 ? 现在 就 来 揭晓 答案 。 InnoDB 统计 一 个 表 中 有 多 少 行 记录 的 套路 
是 这 样 的 : 


。 按照 一 定 算法 (并 不 是 纯粹 随机 的 ) 选取 几 个 叶子 节点 页 面 ， 计 算 每 个 页 面 中 主键 值 记录 数量 ， 然 后 计算 平 
均一 个 页 面 中 主键 值 的 记录 数量 乘 以 全 部 叶子 节点 的 数量 就 算是 该 表 的 n_rows 值 。 





小 贴 士 : 
真实 的 计算 过 程 比 这 个 稍微 复杂 一 些 ， 不 过 大 致 上 就 是 这 样 的 啦 一 


可 以 看 出 来 这 个 n_rows 值 精确 与 否 取决 于 统计 时 采样 的 页 面 数 量 ， 设 计 MySQL 的 大 叔 很 贴心 的 为 我 们 准备 
了 一 个 名 为 innodb_stats_persistent_sample_pages 的 系统 变量 来 控制 使 用 永久 性 的 统计 数据 时 ， 计 算 统 
计数 据 时 采样 的 页 面 数量 。 该 值 设置 的 越 大 ， 统 计 出 的 n_rows 值 越 精确 ， 但 是 统计 耗 时 也 就 最 久 ; 该 值 设 
置 的 越 小 ， 统 计 出 的 n_rows 值 越 不 精确 ， 但 是 统计 耗 时 特别 少 。 所 以 在 实际 使 用 是 需要 我 们 去 权衡 利 浆 ， 
该 系统 变量 的 默认 值 是 20 。 


我 们 前 边 说 过 ， 不 过 InnoDB 默认 是 以 表 为 单位 来 收集 和 存储 统计 数据 的 ， 我 们 也 可 以 单独 设置 某 个 表 的 采 
样 页 面 的 数量 ， 设 置 方式 就 是 在 创建 或 修改 表 的 时 候 通 过 指定 STATS_SAMPLE_PAGES 属性 来 指明 该 表 的 统计 
数据 存储 方式 : 


CREATE TABLE 表 名 (...) Engine=InnoDB，STATS SAMPLE PAGES = 具体 的 采样 页 面 数量 ; 



































Hh 
也 























ALTER TABLE 表 名 Engine=InnoDB，STATS SAMPLE PAGES \ 体 的 采样 页 面 数量 ; 








如 果 我 们 在 创建 表 的 语句 中 并 没有 指定 STATS_SAMPLE_PAGES 属性 的 话 ， 将 默认 使 用 系统 变量 
innodb stats persistent sample pages 的 值 作为 该 属性 的 值 。 


13.2.1.2 clustered_index_size 和 sum_of_other_index_sizes 统 计 项 的 收集 
统计 这 两 个 数据 需要 大 量 用 到 我 们 之 前 踪 明 的 InnoDB 表 空 间 的 知识 ， 如 果 大 家 压根 儿 没有 看 那 一 章 ， 那 下 边 的 
计算 过 程 大 家 还 是 不 要 看 了 (看 也 看 不 懂 ) ; 如 果 看 过 了 ， 那 大 家 就 会 发 现 InnoDB 表 空 间 的 知识 真是 有 用 啊 啊 
啊 ! ! ! 
这 两 个 统计 项 的 收集 过 程 如 下 : 

。 从 数据 字典 里 找到 表 的 各 个 索引 对 应 的 根 页 面 位 置 。 


系统 表 SYS_INDEXES 里 存储 了 各 个 索引 对 应 的 根 页 面 信 息 。 
。 从 根 页 面 的 Page Header 里 找到 叶子 节点 段 和 非 叶子 节点 段 对 应 的 Segment Header 。 


在 每 个 索引 的 根 页 面 的 Page Header 部 分 都 有 两 个 字段 : 
。 PAGE BTR _SEG LEAF : 表示 B+ 树叶 子 段 的 Segment Header 信息 。 
" PAGE BTR_SEG_TOP : 表示 B+ 树 非 叶子 段 的 Segment Header 信息 。 
。 从 叶子 节点 段 和 非 叶子 节点 段 的 Segment Header 中 找到 这 两 个 段 对 应 的 INODE Entry 结构 。 


这 个 是 Segment Header 结构 : 


Segment Header 结构 


Space ID of the INODE Entry (4 字 节 ) 


Page Number of the INODE Entry (4 字 节 ) 


Byte Offset of the INODE Entry (4 字 节 ) 





。 从 对 应 的 INODE Entry 结构 中 可 以 找到 该 段 对 应 所 有 零散 的 页 面 地 址 以 及 FREE 、 NOT_FULL 、 FULL 链表 的 


这 个 是 INODE Entry 结构 : 


INODE Entry 结构 示意 图 


Segment ID (8 字 节 


) 
NOT_FULL_N_USED (4 字 节 ) 


List Base Node For FREE List (16 字 节 ) 


这 三 个 部 分 分 别 对 应 FREE、 
NOT_FULL 和 FULL 链表 的 基 节 点 


List Base Node For NOT_FULL List (16 字 节 ) 


共 192 字 节 List Base Node For FULLList (16 字 节 ) 


PT 
IVanlels d= 


Fragment Array Entry 0 (4 字 节 ) 
Fragment Array Entry 1 (4 字 节 ) 


此 处 共有 32 个 
Fragment Array Entry 





Fragment Array Entry 31 (4 字 节 ) 


。 直接 统计 零散 的 页 面 有 多 少 个 ， 然 后 从 那 三 个 链表 的 List Length 字段 中 读 出 该 段 占用 的 区 的 大 小 ， 每 个 区 
占用 64 个 页 ， 所 以 就 可 以 统计 出 整个 段 占用 的 页 面 。 


这 个 是 链表 基 节 点 的 示意 图 : 


List Base Node 结构 示意 图 


List Length(4 字 节 ) 





First Node Page Number (4 字 节 ) 这 两 个 字段 是 指向 XDES Entry 
链表 头 节点 的 指针 
First Node Offset (2 字 节 ) 
Last Node Page Number (4 字 节 ) 这 两 个 字段 是 指向 XDES Entry 
链表 尾 节 点 的 指针 
Last Node Offset (2 字 节 ) 
。 分 别 计 算 聚 篮 索 引 的 叶子 结 点 段 和 非 叶子 节点 段 占 用 的 页 面 数 ， 它 们 的 和 就 是 clustered_index_size 的 


值 ， 按 照 同样 的 套路 把 其 余 索 引 占 用 的 页 面 数 都 算出 来 ， 加 起 来 之 后 就 是 sumn_of other index_sizes 的 
值 。 


这 里 需要 大 家 注意 一 个 问题 ， 我 们 说 一 个 段 的 数据 在 非常 多 时 (超过 32 个 页 面 ) ， 会 以 区 为 单位 来 申请 空间 ， 
这 里 头 的 问题 是 以 区 为 单位 申请 空间 中 有 一 些 页 可 能 并 没有 使 用 ， 但 是 在 统计 clustered_index_size 和 

sum of other index_sizes 时 都 把 它们 算 进 去 了 ， 所 以 说 聚 簇 索 引 和 其 他 的 索引 占用 的 页 面 数 可 能 比 这 两 个 值 
要 小 一 些 。 








13.2.2 innodb index_stats 
直接 看 一 下 这 个 innodb_index_stats 表 中 的 各 个 列 都 是 干 嘛 的 : 


字段 名 描述 
database_name ”数据 库 名 

table_name 表 名 

index_name 索引 名 

last_update 本 条 记录 最 后 更 新 时 间 

stat_name 统计 项 的 名 称 

stat_value 对 应 的 统计 项 的 值 

sample size 为 生成 统计 数据 而 采样 的 页 面 数量 

stat_description ”对 应 的 统计 项 的 描述 
注意 这 个 表 的 主键 是 (database name, table name, index name, stat name) ， 其 中 的 stat_name 是 指 统计 项 的 名 


称 ， 也 就 是 说 innodb_index_stats 表 的 每 条 记录 代表 着 一 个 索引 的 一 个 统计 项 。 可 能 这 会 大 家 有 些 懂 逼 这 个 统计 
项 到 底 指 什么 ， 别 着 急 ， 我 们 直接 看 一 下 关于 single_table 表 的 索引 统计 数据 都 有 些 什 么 : 


mysql> SELECT x* FROM mysql. innodb index stats WHERE table name = ’ single table :; 




























































































database name | table name index name | last update stat name stat 
value | sample size | stat description 

xiaohaizi single table | PRIMARY 2018-12-14 14:24:46 | n diff pfx01 
9693 | 20 | id | 

xiaohaizi single table | PRIMARY 2018-12-14 14:24:46 | n leaf pages 
91 NULL | Number of leaf pages in the index | 

xiaohaizi single table | PRIMARY 2018-12-14 14:24:46 | size 
97 NULL | Number of pages in the index 

xiaohaizi single table | idx keyl 2018-12-14 14:24:46 | n diff pfx01 
968 | 28 | keyl 

xiaohaizi single table | idx keyl 2018-12-14 14:24:46 | n diff pfx02 

10000 | 28 | keyl, id 

xiaohaizi single table | idx keyl 2018-12-14 14:24:46 | n leaf pages 
28 NULL | Number of leaf pages in the index | 

xiaohaizi single table | idx keyl 2018-12-14 14:24:46 | size 
29 NULL | Number of pages in the index | 

xiaohaizi single table | idx key2 2018-12-14 14:24:46 | n diff pfx01 

10000 | 16 | key2 

xiaohaizi single table | idx key2 2018-12-14 14:24:46 | n leaf pages 
16 NULL | Number of leaf pages in the index | 

xiaohaizi single table | idx key2 2018-12-14 14:24:46 | size 
17 NULL | Number of pages in the index | 

xiaohaizi single table | idx key3 2018-12-14 14:24:46 | n diff pfx01 
799 | 31 | key3 

Xiaohaizi single _ table | idx key3 2018-12-14 14:24:46 | n diff pfx02 

10000 | 31 | key3, id 

xiaohaizi single table | idx key3 2018-12-14 14:24:46 | n leaf pages 
31 NULL | Number of leaf pages in the index | 

xiaohaizi single table | idx key3 2018-12-14 14:24:46 | size 
32 NULL | Number of pages in the index | 

xiaohaizi single table | idx key part | 2018-12-14 14:24:46 | n diff pfx01 
9673 | 64 | key partl | 

xiaohaiz single table | idx key part | 2018-12-14 14:24:46 | n diff pfx02 
9999 | 64 | key partl, key part2 | 

xiaohaizi single table | idx key part | 2018-12-14 14:24:46 | n diff pfx03 

10000 | 64 | key partl, key part2, key part3 

xiaohaizi single table | idx key part | 2018-12-14 14:24:46 | n diff pfx04 

10000 | 64 | key partl, key part2, key part3, id 

xiaohaizi single table | idx key part | 2018-12-14 14:24:46 | n leaf pages 
64 NULL | Number of leaf pages in the index | 

xiaohaizi single table | idx key part | 2018-12-14 14:24:46 | size 
97 NULL | Number of pages in the index 





20 rows in set (0.03 sec) 


这 个 结果 有 点 儿 多 ， 正 确 查看 这 个 结果 的 方式 是 这 样 的 : 





。 先 查看 index_name 列 ， 这 个 列 说明 该 记录 是 哪个 索引 的 统计 信息 ， 从 结果 中 我 们 可 以 看 出 来 ， PRIMARY 索 
引 (也 就 是 主键 ) 占 了 3 条 记录 ， idx_key_part 索引 占 了 6 条 记录 。 

。 针对 index_name 列 相 同 的 记录 ， stat_name 表示 针对 该 索引 的 统计 项 名 称 ， stat_value 展示 的 是 该 索引 
在 该 统计 项 上 的 值 ， stat_description 指 的 是 来 描述 该 统计 项 的 含义 的 。 我 们 来 具体 看 一 下 一 个 索引 都 有 
哪些 统计 项 : 

" n_leaf_ pages : 表示 该 索引 的 叶子 节点 占用 多 少 页 面 。 
" size : 表示 该 索引 共 占 用 多 少 页 面 。 
" n_diff pfxNN : 表示 对 应 的 索引 列 不 重复 的 值 有 多 少 。 其 中 的 NN 长 得 有 点 儿 怪 呀 ， 哈 意思 呢 ? 


其 实 NN 可 以 被 替换 为 01 、 02 、 03 … 这 样 的 数字 。 比 如 对 于 idx_key_part 来 说 : 
o。 n_diff_pfx01 表示 的 是 统计 key_partl 这 单单 一 个 列 不 重复 的 值 有 多 少 。 
o。 n_diff pfx02 表示 的 是 统计 key_part1、key_part2 这 两 个 列 组 合 起 来 不 重复 的 值 有 多 少 。 
o n diff pfx03 表示 的 是 统计 key partl1、key part2、key part3 这 三 个 列 组 合 起 来 不 重复 的 值 有 


多 小 
2 一 。 
o。 n diff pfx04 表示 的 是 统计 key partl1、key part2、key part3、id 这 四 个 列 组 合 起 来 不 重复 的 
值 有 多 少 。 
小 贴 士 : 
































这 里 需要 注意 的 是 ， 对 于 普通 的 二 级 索引 ， 并 不 能 保证 它 的 索引 列 值 是 唯一 的 ， 比 如 对 于 
idx_ keyl 来 说 ，key1 列 就 可 能 有 很 多 值 重复 的 记录 。 此 时 只 有 在 索引 列 上 加 上 主键 值 才 可 
以 区 分 两 条 索引 列 值 都 一 样 的 二 级 索引 记录 。 对 于 主键 和 唯一 二 级 索引 则 没有 这 个 问题 ， 
它们 本 身 就 可 以 保证 索引 列 值 的 不 重复 ， 所 以 也 不 需要 再 统计 一 遍 在 索引 列 后 加 上 主键 值 
的 不 重复 值 有 多 少 。 比 如 上 边 的 idx keyl1 有 n diff pfx01、n diff pfx02 两 个 统计 项 ， 而 
idx key2 却 只 有 n diff pfx01 一 个 统计 项 。 






























































































































































。 在 计算 某 些 索引 列 中 包含 多 少 不 重 复 值 时 ， 需 要 对 一 些 叶 子 节点 页 面 进行 采样 ， size 列 就 表明 了 采样 的 页 


面 数量 是 多 少 。 


小 贴 士 : 

对 于 有 多 个 列 的 联合 索引 来 说 ， 采 样 的 页 面 数量 是 : innodb stats persistent sample pages 

x 索引 列 的 个 数 。 当 需要 采样 的 页 面 数 量 大 于 该 索引 的 叶子 节点 数量 的 话 ， 就 直接 采用 全 表 扫 描 
来 统计 索引 列 的 不 重复 值 数量 了 。 所 以 大 家 可 以 在 查询 结果 中 看 到 不 同 索 引 对 应 的 size 列 的 值 可 能 
是 不 同 的 。 





































































































13.2.3 定期 更 新 统计 数据 


随 着 我 们 不 断 的 对 表 进 行 增删 改 操 作 ， 表 中 的 数据 也 一 直 在 变化 ， innodb_table_stats 和 innodb index_stats 
表 里 的 统计 数据 是 不 是 也 应 该 跟着 变 一 变 了 ? 当然 要 变 了 ， 不 变 的 话 MySQL 查询 优化 器 计算 的 成 本 可 就 差 者 鼻子 
远 了 。 设 计 MySQL 的 大 叔 提供 了 如 下 两 种 更 新 统计 数据 的 方式 : 


。 开启 innodb stats auto recalc 。 


系统 变量 innodb_stats_auto_recalc 决定 着 服务 器 是 否 自 动 重 新 计算 统计 数据 ， 它 的 默认 值 是 ON ， 也 就 是 
该 功能 默认 是 开启 的 。 每 个 表 都 维护 了 一 个 变量 ， 该 变量 记录 着 对 该 表 进 行 增删 改 的 记录 条 数 ， 如 果 发 生变 
动 的 记录 数量 超过 了 表 大 小 的 10% ， 并 且 自 动 重新 计算 统计 数据 的 功能 是 打开 的 ， 那 么 服务 器 会 重新 进行 一 
次 统计 数据 的 计算 ， 并 且 更 新 innodb_table_stats 和 innodb_index_stats 表 。 不 过 自动 重新 计算 统计 数据 
的 过 程 是 异步 发 生 的 ， 也 就 是 即使 表 中 变动 的 记录 数 超过 了 10% ， 自 动 重新 计算 统计 数据 也 不 会 立即 发 生 ， 
可 能 会 延迟 几 秒 才 会 进行 计算 。 





再 一 次 强调 ， InnoDB 默认 是 以 表 为 单位 来 收集 和 存储 统计 数据 的 ， 我 们 也 可 以 单独 为 某 个 表 设 置 是 否 自动 
重新 计算 统计 数 的 属性 ， 设 置 方式 就 是 在 创建 或 修改 表 的 时 候 通 过 指定 STATS_AUT0_RECALC 属性 来 指明 该 表 
的 统计 数据 存储 方式 : 


CREATE TABLE 表 名 (...) Engine=InnoDB，STATS_AUTO_RECALC = (1|0); 


ALTER TABLE 表 名 Engine=InnoDB，STATS_AUTO_RECALC = (1|0); 


当 STATS_ AUTO RECALC=1 时 ， 表 明 我 们 想 让 该 表 自 动 重新 计算 统计 数据 ， 当 STATS _PERSISTENT=0 时 ， 表 明 
不 想 让 该 表 自 动 重新 计算 统计 数据 。 如 果 我 们 在 创建 表 时 未 指定 STATS_AUTO_RECALC 属性 ， 那 默认 采用 系统 
变量 innodb_stats_auto_recalec 的 值 作为 该 属性 的 值 。 


手动 调用 ANALYZE TABIE 语句 来 更 新 统计 信息 


如 果 innodb stats auto recalc 系统 变量 的 值 为 OFF 的 话 ， 我 们 也 可 以 手动 调用 ANALYZE TABLE 语句 来 重 
新 计算 统计 数据 ， 比 如 我 们 可 以 这 样 更 新 关于 single_table 表 的 统计 数据 : 


mysql> ANALYZE TABLE single table; 





Table Op Msg type | Msg text | 





xiaohaizi. single table | analyze | status | OK | 














1 row in set (0.08 sec) 
需要 注意 的 是 ，ANALYZE TABLE 语 句 会 立即 重新 计算 统计 数据 ， 也 就 是 这 个 过 程 是 同步 的 ， 在 表 中 索引 多 
或 者 采样 页 面 特 别 多 时 这 个 过 程 可 能 会 特别 慢 ， 请 不 要 没事 儿 就 运行 一 下 ANALYZE TABLE 语句 ， 最 好 在 业务 
不 是 很 繁忙 的 时 候 再 运行 。 
13.2.4 手动 更 新 innodb_table_stats 和 innodb_index_stats 表 


其 实 innodb table_stats 和 innodb_index_stats 表 就 相当 于 一 个 普通 的 表 一 样 ， 我 们 能 对 它们 做 增删 改 查 操 
作 。 这 也 就 意味 着 我 们 可 以 手动 更 新 某 个 表 或 者 索引 的 统计 数据 。 比 如 说 我 们 想 把 single_table 表 关 于 行 数 的 
统计 数据 更 改 一 下 可 以 这 么 做 : 


。 步骤 一 : 更 新 innodb _ table_stats 表 。 


UPDATE innodb table stats 
SET n rows = 1 
WHERE table name = "single table’: 


。 步骤 二 : 让 MySQL 查询 优化 器 重新 加 载 我 们 更 改过 的 数据 。 


更 新 完 innodb_table_stats 只 是 单纯 的 修改 了 一 个 表 的 数据 ， 需 要 让 MySQL 查询 优化 器 重新 加 载 我 们 更 改 
过 的 数据 ， 运 行 下 边 的 命令 就 可 以 了 : 


FLUSH TABLE single table; 


之 后 我 们 使 用 SHOW TABLE STATUS 语句 查看 表 的 统计 数据 时 就 看 到 Rows 行 变 为 了 1 。 


13.3 基于 内 存 的 非 永久 性 统计 数据 

当 我 们 把 系统 变量 innodb_stats_persistent 的 值 设 置 为 OFF 时 ， 之 后 创建 的 表 的 统计 数据 默认 就 都 是 非 永 久 性 
的 了 ,或 者 我 们 直接 在 创建 表 或 修改 表 时 设置 STATS _PERSISTENT 属性 的 值 为 0 ， 那 么 该 表 的 统计 数据 就 是 非 永 
久 性 的 了 。 


与 永久 性 的 统计 数据 不 同 ， 非 永久 性 的 统计 数据 采样 的 页 面 数 量 是 由 innodb_stats_transient_sample_pages 控 
制 的 ， 这 个 系统 变量 的 默认 值 是 8 。 


另外 ， 由 于 非 永久 性 的 统计 数据 经 常 更 新 ， 所 以 导致 MySQL 查询 优化 器 计算 查询 成 本 的 时 候 依赖 的 是 经 常 变化 的 
统计 数据 ， 也 就 会 生成 经 常 变化 的 执行 计划 ， 这 个 可 能 让 大 家 有 些 懂 逼 。 不 过 最 近 的 MySQL 版 本 都 不 咋 用 这 种 基 
于 内 存 的 非 永久 性 统计 数据 了 ， 所 以 我 们 也 就 不 深入 路 明 它 了 。 


13.4 innodb _stats_method 的 使 用 
我 们 知道 索引 列 不 重复 的 值 的 数量 这 个 统计 数据 对 于 MySQL 查询 优化 器 十 分 重要 ， 因 为 通过 它 可 以 计算 出 在 索 


引 列 中 平均 一 个 值 重复 多 少 行 ， 它 的 应 用 场景 主要 有 两 个 : 





。 单 表 查询 中 单 点 区 间 太 多 ， 比 方 说 这 样 : 
SELECT x* FROM tbl name WHERE key IN ( xx]l’, ”xx2 , ..., ”xxn ); 


当 IN 里 的 参数 数量 过 多 时 ， 采 用 index dive 的 方式 直接 访问 B+ 树 索引 去 统计 每 个 单 点 区 间 对 应 的 记录 的 
数量 就 太 耗 费 性 能 了 ， 所 以 直接 依赖 统计 数据 中 的 平均 一 个 值 重复 多 少 行 来 计算 单 点 区 间 对 应 的 记录 数量 。 
。 连接 查询 时 ， 如 果 有 涉及 两 个 表 的 等 值 匹配 连接 条 件 ， 该 连接 条 件 对 应 的 被 驱动 表 中 的 列 又 拥有 索引 时 ， 则 
可 以 使 用 ref 访问 方法 来 对 被 驱动 表 进 行 查 询 ， 比 方 说 这 样 : 
SELECT x* FROM tl JOIN t2 ON tl.column = t2.key WHERE ...; 


在 真正 执行 对 t2 表 的 查询 前 ， t1. comumn 的 值 是 不 确定 的 ， 所 以 我 们 也 不 能 通过 index dive 的 方式 直接 
访问 B+ 树 索引 去 统计 每 个 单 点 区 间 对 应 的 记录 的 数量 ， 所 以 也 只 能 依赖 统计 数据 中 的 平均 一 个 值 重 复 多 少 
行 来 计算 单 点 区 间 对 应 的 记录 数量 。 


在 统计 索引 列 不 重复 的 值 的 数量 时 ， 有 一 个 比较 烦 的 问题 就 是 索引 列 中 出 现 NULL 值 怎么 办 ， 比 方 说 某 个 索引 列 
的 内 容 是 这 样 : 








此 时 计算 这 个 col 列 中 不 重复 的 值 的 数量 就 有 下 边 的 分 歧 : 


。 有 的 人 认为 NULL 值 代表 一 个 未 确定 的 值 ， 所 以 设计 MySQL 的 大 叔 才 认为 任何 和 NULL 值 做 比较 的 表达 式 的 值 
都 为 NULL ， 就 是 这 样 : 














mysql> SELECT 1 = NULL; 
[一 一 一 一 一 一 一 + 
1 = NULL | 
一 一 一 一 一 一 一 一 一 一 十 
NULL | 
一 一 一 一 一 一 一 一 一 + 





1 row in set (0. 00 sec) 


mysql> SELECT 1 != NULL; 





1 != NULL 








NULL 











1 row in set (0.00 sec) 


mysql> SELECT NULL = NULL; 





NULL = NULL 





NULL 











1 row in set (0. 00 sec) 


mysql> SELECT NULL != NULL ; 





NULL != NULL 





NULL 











1 row in set (0. 00 sec) 





所 以 每 一 个 NULL 值 都 是 独一无二 的 ， en 应 该 把 NULL 值 当 作 
一 个 独立 的 值 ， 所 以 col 列 的 不 重复 的 值 的 数量 就 是 : 4 《分 别 是 1、2、NULL、NULL 这 四 个 值 ) 。 


。 有 的 人 认为 其 实 NULL 值 在 业务 上 就 是 代表 没有 ， 所 有 的 NULL 值 代表 的 意义 是 一 样 的 ， 所 以 col 列 不 重复 
的 值 的 数量 就 是 : 3 (分 别 是 1、2、NULL 这 三 个 值 ) 。 

。 有 的 人 认为 这 NULL 完全 没有 意义 嘛 ， 所 以 在 统计 索引 列 不 重复 的 值 的 数量 时 压根 儿 不 能 把 它们 算 进 来 ， 所 
以 col 列 不 重复 的 值 的 数量 就 是 : 2 (分 别 是 1、2 这 两 个 值 ) 。 


设计 MySQL 的 大 叔 查 贴 心 的， 他 们 提供 了 一 个 名 为 innodb_stats_method 的 系统 变量 ， 相 当 于 在 计算 某 个 索引 列 
不 重复 值 的 数量 时 如 何 对 待 NULL 值 这 个 锅 甩 给 了 用 户 ， 这 个 系统 变量 有 三 个 候选 值 : 


。 nulls equal : 认为 所 有 NULL 值 都 是 相等 的 。 这 个 值 也 是 innodb stats _method 的 默认 值 。 


如 果 某 个 索引 列 中 NULL 值 特别 多 的 话 ， 这 种 统计 方式 会 让 优化 器 认为 某 个 列 中 平均 一 个 值 重复 次 数 特别 
多 ， 所 以 倾向 于 不 使 用 索引 进行 访问 。 
。 nulls_unequal : 认为 所 有 NULL 值 都 是 不 相等 的 。 


如 果 某 个 索引 列 中 NULL 值 特别 多 的 话 ， 这 种 统计 方式 会 让 优化 器 认为 某 个 列 中 平均 一 个 值 重复 次 数 特别 
少 ， 所 以 倾向 于 使 用 索引 进行 访问 。 









































。 nulls isgnored : 直接 把 NULL 值 忽略 掉 。 


反正 这 个 锅 是 甩 给 用 户 了 ， 当 你 选 定 了 innodb_stats_method 值 之 后 ， 优 化 器 即使 选择 了 不 是 最 优 的 执行 计划 ， 
那 也 跟 设 计 MySQL 的 大 叔 们 没关系 了 哈 ~ 当然 对 于 用 户 的 我 们 来 说 ， 最 好 不 在 索引 列 中 存放 NULL 值 才 是 正解 。 


1 3.5 总 结 


。 InnoDB 以 表 为 单位 来 收集 统计 数据 ， 这 些 统计 数据 可 以 是 基于 磁盘 的 永久 性 统计 数据 ， 也 可 以 是 基于 内 存 
的 非 永久 性 统计 数据 。 

innodb_stats_persistent 控制 着 使 用 永久 性 统计 数据 还 是 非 永久 性 统计 数据 ; 

innodb_stats_persistent_sample_pages 控制 着 永久 性 统计 数据 的 采样 页 面 数量 ; 

innodb_ stats transient_sample_pages 控制 着 非 永久 性 统计 数据 的 采样 页 面 数量 ; 

innodb stats auto recalc 控制 着 是 否 自动 重新 计算 统计 数据 。 

。 我 们 可 以 针对 某 个 具体 的 表 ， 在 创建 和 修改 表 时 通过 指定 STATS_PERSISTENT 、 STATS_AUTO_RECALC 、 

STATS_SAMPLE PAGES 的 值 来 控制 相关 统计 数据 属性 。 
。 innodb_stats_method 决定 着 在 统计 某 个 索引 列 不 重复 值 的 数量 时 如 何 对 待 NULL 值 。 














14 第 14 章 不 好 看 就 要 多 整容 -MySQL 基 于 规则 的 优化 (内 
名 \ 


标签 : MySQL 是 怎样 运行 的 


大 家 别 忘 了 MySQL 本 质 上 是 一 个 软件 ， 设 计 MySQL 的 大 叔 并 不 能 要 求 使 用 这 个 软件 的 人 个 个 都 是 数据 库 高 高 手 ， 
就 像 我 写 这 本 书 的 时 候 并 不 能 要 求 各 位 在 学 之 前 就 会 了 里 边 儿 的 知识 。 


吐槽 一 下 ， 都 会 了 的 人 谁 还 看 呢 ， 难 道 是 为 了 精神 上 受 感化 ? 


也 就 是 说 我 们 无 法 避免 某 些 同学 写 一 些 执行 起 来 十 分 耗费 性 能 的 语句 。 即 使 是 这 样 ， 设 计 MySQL 的 大 叔 还 是 依据 
一 些 规则 ， 竭 尽 全 力 的 把 这 个 很 糟糕 的 语句 转换 成 某 种 可 以 比较 高 效 执行 的 形式 ， 这 个 过 程 也 可 以 被 称 作 查询 重 
写 (就 是 人 家 觉得 你 写 的 语句 不 好 ， 自 己 再 重 写 一 遍 ) 。 本 章 详细 啼 轨 一 下 一 些 比较 重要 的 重 写 规则 。 


14.1 条 件 化 简 


我 们 编写 的 查询 语句 的 搜索 条 件 本 质 上 是 一 个 表达 式 ， 这 些 表达 式 可 能 比较 繁杂 ， 或 者 不 能 高 效 的 执行 ， MySQL 
的 查询 优化 器 会 为 我 们 简化 这 些 表达 式 。 为 了 方便 大 家 理解 ， 我 们 后 边 举例 子 的 时 候 都 使 用 诸如 a 、b 、c 之 
类 的 简单 字母 代表 某 个 表 的 列 名 。 
























































14.1.1 移 除 不 必要 的 括号 

有 时 候 表 达 式 里 有 许多 无 用 的 括号 ， 比 如 这 样 : 
(l(a=5ANDb=c) OR ((a >ce) AN (c < 5))) 

看 着 就 很 烦 ， 优 化 器 会 把 那些 用 不 到 的 括号 给 干掉 ， 就 是 这 样 : 


(a=5andb=c) OR (a>c ANDcK5) 


14.1.2 常量 传递 (constant_propagation) 
有 时 候 某 个 表达 式 是 某 个 列 和 某 个 常量 做 等 值 匹配 ， 比 如 这 样 : 


a=5 


当 这 个 表达 式 和 其 他 涉及 列 a 的 表达 式 使 用 AND 连接 起 来 时 ， 可 以 将 其 他 表达 式 中 的 a 的 值 替 换 为 5 ， 比 如 这 
样 : 


a=5ANDb>a 
就 可 以 被 转换 为 : 
a=5ANDb>5 


小 贴 士 : 
为 啥 用 OR 连 接 起 来 的 表达 式 就 不 能 进行 常量 传递 呢 ? 自己 想 想 哈 一 


























14.1.3 等 值 传递 (equality_propagation) 

有 时 候 多 个 列 之 间 存 在 等 值 匹 配 的 关系 ， 比 如 这 样 : 
a=bandb=candc=5 

这 个 表达 式 可 以 被 简化 为 : 


a=5andb=5 andc=5 


14.1.4 移 除 没 用 的 条 件 (trivial_condition_removal) 
对 于 一 些 明显 永远 为 TRUE 或 者 FALSE 的 表达 式 ， 优 化 器 会 移 除 掉 它 们 ， 比 如 这 个 表达 式 : 
(<landbp=boga=60R5!=5) 


很 明显 ，b = b 这 个 表达 式 永远 为 TRUE ， 5 != 5 这 个 表达 式 永 远 为 FALSE ， 所 以 简化 后 的 表达 式 就 是 这 样 
的 : 


(a < 1 and TRUE) OR (a = 6 OR FALSE) 
可 以 继续 被 简化 为 


a<lORa=6 


14.1.5 表达 式 计算 

在 查询 开始 执行 之 前 ， 如 果 表 达 式 中 只 包含 常量 的 话 ， 它 的 值 会 被 先 计算 出 来 ， 比 如 这 个 : 
= 中] 

因为 5 + 1 这 个 表达 式 只 包含 常量 ， 所 以 就 会 被 化 简 成 : 
a=6 


但 是 这 里 需要 注意 的 是 ， 如 果 某 个 列 并 不 是 以 单独 的 形式 作为 表达 式 的 操作 数 时 ， 比 如 出 现在 函数 中 ， 出 现在 某 
个 更 复杂 表达 式 中， 就 像 这 样 : 


ABS(a) > 5 


优化 器 是 不 会 尝试 对 这 些 表 达 式 进行 化 简 的 。 我 们 前 边 说 过 只 有 搜索 条 件 中 索引 列 和 常数 使 用 某 些 运 算 符 连接 起 
来 才 可 能 使 用 到 索引 ， 所 以 如 果 可 以 的 话 ， 最 好 让 索引 列 以 单独 的 形式 出 现在 表达 式 中 。 
14.1.6 HAVING 子 句 和 WHERE 子 句 的 合并 


如 果 查 询 语句 中 没有 出 现 诸如 SUM 、 MAX 等 等 的 聚集 函数 以 及 GROUP BY 子 句 ， 优 化 器 就 把 HAVING 子 句 和 
WHERE 子 句 合并 起 来 。 


14.1.7 常量 表 检 测 
设计 MySQL 的 大 叔 觉得 下 边 这 两 种 查询 运行 的 特别 快 : 
。 查询 的 表 中 一 条 记录 没有 ， 或 者 只 有 一 条 记录 。 
小 贴 士 : 
大 家 有 没有 觉得 这 一 条 有 点 儿 不 对 劲 ， 我 还 没 开始 查 表 呢 咋 就 知道 这 表 里 边 有 几 条 记录 呢 ? 哈 
哈 ， 这 个 其 实 依靠 的 是 统计 数据 。 不 过 我 们 说 过 InnoDB 的 统计 数据 数据 不 准确 ， 所 以 这 一 条 不 能 用 
于 使 用 InnoDB 作 为 存储 引擎 的 表 ， 只 能 适用 于 使 用 Memory 或 者 MyISAM 存 储 引 擎 的 表 。 
。 使 用 主键 等 值 匹配 或 者 唯一 二 级 索引 列 等 值 匹配 作为 搜索 条 件 来 查询 基 个 表 。 


设计 MySQL 的 大 叔 觉 得 这 两 种 查询 花费 的 时 间 特 别 少 ， 少 到 可 以 忽略 ， 所 以 也 把 通过 这 两 种 方式 查询 的 表 称 之 
为 常量 表 (英文 名 : ， constant tables ) 。 优 化 器 在 分 析 一 个 查询 语句 时 ， 先 首先 执行 常量 表 查 询 ， 然 后 把 查 
询 中 涉及 到 该 表 的 条 件 全 部 替换 成 常数 ， 最 后 再 分 析 其 余 表 的 查询 成 本 ， 比 方 说 这 个 查询 语句 : 


SELECT x*¥ FROM tablel INNER JOIN table2 
ON tablel. columnl = table2. column2 
WHERE tablel. primary key = 1; 
















































































很 明显 ， 这 个 查询 可 以 使 用 主键 和 常量 信和 的 等 值 匹 配 来 查询 tablel 表 ， 也 就 是 在 这 个 查询 中 tablel 表 相当 于 
常量 表 ， 在 分 析 对 table2 表 的 查询 成 本 之 前 ， 就 会 执行 对 tablel 表 的 查询 ， 并 把 查询 中 涉及 tablel 表 的 条 
件 都 蔡 换 掉 ， 也 就 是 上 边 的 语句 会 被 转换 成 这 样 : 





SELECT tablel 表 记录 的 各 个 字段 的 常量 值 ，table2.* FROM tablel INNER JOIN table2 
ON tablel 表 column1 列 的 常量 值 = table2. column2 


14.2 外 连接 消除 


我 们 前 边 说 过 ， 内 连接 的 驱动 表 和 被 驱动 表 的 位 置 可 以 相互 转换 ,而 左 〈 外 )〉 连接 和 右 〈 外 ) 连接 的 驱动 表 
和 被 驱动 表 是 固定 的 。 这 就 导致 内 连接 可 能 通过 优化 表 的 连接 顺序 来 降低 整体 的 查询 成 本 ， 而 外 连接 却 无 法 优 
化 表 的 连接 顺序 。 为 了 故事 的 顺利 发 展 ， 我 们 还 是 把 之 前 介绍 连接 原理 时 用 过 的 tl 和 t2 表 请 出 来 ， 为 了 防止 大 
家 早 就 忘掉 了 ， 我 们 再 看 一 下 这 两 个 表 的 结构 : 

















CREATE TABLE tl (人 
ml int, 
nl char (1) 
) Engine=InnoDB, CHARSET=utf8; 


CREATE TABLE t2 ( 
m2 int, 
n2 char (1) 
) Engine=InnoDB, CHARSET=utf8; 


为 了 唤醒 大 家 的 记忆 ， 我 们 再 把 这 两 个 表 中 的 数据 给 展示 一 下 : 


mysql> SELECT x*¥ FROM tl1; 








ml nl 
1 a 
2 | b 
3 | @ 














3 rows in set (0.00 sec) 


mysql> SELECT x*¥ FROM t2; 








m2 n2 
2 | b 
3 | <c 
4 |1d 














3 rows in set (0. 00 sec) 
我 们 之 前 说 过 ， 外 连接 和 内 连接 的 本 质 区 别 就 是 : 对 于 外 连接 的 驱动 表 的 记录 来 说 ， 如 果 无 法 在 被 驱动 表 中 找到 
匹配 ON 子 句 中 的 过 滤 条 件 的 记录 ， 那 么 该 记录 仍然 会 被 加 入 到 结果 集中 ， 对 应 的 被 驱动 表 记 录 的 各 个 字段 使 用 
NULL 值 填充 ; 而 内 连接 的 驱动 表 的 记录 如 果 无 法 在 被 驱动 表 中 找到 匹配 ON 子 句 中 的 过 滤 条 件 的 记录 ， 那 么 该 记 
录 会 被 舍弃 。 查 询 效 果 就 是 这 样 : 


mysql> SELECT x* FROM tl INNER JOIN t2 ON tl.ml = t2.m2; 





ml nl m2 n2 | 





2 | b 多 小 改 | 
3 | 3 :© | 

















2 rows in set (0.00 sec) 


mysql> SELECT x* FROM tl LEFT JOIN t2 ON tl.ml = t2.m2; 





ml nl m2 n2 | 





2 1b 2 | b 
1 |a NULL | NULL 














| 
3. | 泥 3 | <c | 
| 





3 rows in set (0.00 sec) 


对 于 上 边 例子 中 的 ( 左 ) 外 连接 来 说 ， 由 于 驱动 表 tl 中 ml=1，nl= a ”的 记录 无 法 在 被 驱动 表 t2 中 找到 符合 
ON 子 句 条 件 t1. ml = t2. m2 的 记录 ， 所 以 就 直接 把 这 条 记录 加 入 到 结果 集 ， 对 应 的 t2 表 的 m2 和 n2 列 的 值 都 
设置 为 NULL 。 


小 贴 士 : 
右 ( 外 ) 连接 和 左 〈( 外 ) 连接 其 实 只 在 驱动 表 的 选取 方式 上 是 不 同 的 ， 其 余 方面 都 是 一 样 的 ， 所 以 优化 
器 会 首先 把 右 ( 外 〉 连接 查询 转换 成 左 〈 外 ) 连接 查询 。 我 们 后 边 就 不 再 啼 叫 右 〈 外 ) 连接 了 。 






























































我 们 知道 WHERE 子 句 的 杀伤 力 比 较 大 ， 凡 是 不 符合 WHERE 子 句 中 条 件 的 记录 都 不 会 参与 连接 。 只 要 我 们 在 搜索 
条 件 中 指定 关于 被 驱动 表 相关 列 的 值 不 为 NULL ， 那 么 外 连接 中 在 被 驱动 表 中 找 不 到 符合 ON 子 句 条 件 的 驱动 表 记 
录 也 就 被 排除 出 最 后 的 结果 集 了 ， 也 就 是 说 : 在 这 种 情况 下 : 外 连接 和 内 连接 也 就 没有 什么 区 别 了 ! 比方 说 这 个 
查询 : 


mysql> SELECT x* FROM tl LEFT JOIN t2 ON tl.ml = t2.m2 WHERE t2.n2 IS NOT NULL ; 





| ml nl m2 n2 | 





| 21|b 2|b | 
| 3 | < 3 | c | 














2 rows in set (0.01 sec) 


由 于 指定 了 被 驱动 表 t2 的 n2 列 不 允许 为 NULL ， 所 以 上 边 的 tl 和 t2 表 的 左 (外 ) 连接 查询 和 内 连接 查询 是 
一 样 一 样 的。 当然 ,我们 也 可 以 不 用 显 式 的 指定 被 驱动 表 的 某 个 列 IS NOT NULL ， 只 要 隐 含 的 有 这 个 意思 就 行 
了 ， 上 比方 说 这 样 : 


mysql> SELECT x* FROM tl LEFT JOIN t2 ON tl.ml = t2.m2 WHERE t2.m2 = 2; 





| ml nl m2 n2 | 














| 2|b 2|b | 





1 row in set (0. 00 sec) 


在 这 个 例子 中 ， 我 们 在 WHERE 子 句 中 指定 了 被 驱动 表 t2 的 m2 列 等 于 2 ， 也 就 相当 于 间接 的 指定 了 m2 列 不 为 
NULL 值 ， 所 以 上 边 的 这 个 左 (外 ) 连接 查询 其 实 和 下 边 这 个 内 连接 查询 是 等 价 的 : 


mysql> SELECT x* FROM tl INNER JOIN t2 ON tl.ml = t2.m2 WHERE t2.m2 = 2; 





| ml nl m2 n2 | 





| “21|p 2|b | 














1 row in set (0.00 sec) 











我 们 把 这 种 在 外 连接 查询 中 ， 指 定 的 WHERE 子 句 中 包含 被 驱动 表 中 的 列 不 为 NULL 值 的 条 件 称 之 为 空 值 拒绝 
(英文 名 : reject-NULL ) 。 在 被 驱动 表 的 WHERE 子 句 符合 空 值 拒绝 的 条 件 后 ， 外 连接 和 内 连接 可 以 相互 转 
换 。 这 种 转换 带 来 的 好 处 就 是 查询 优化 器 可 以 通过 评估 表 的 不 同 连 接 顺 序 的 成 本 ， 选 出 成 本 最 低 的 那 种 连接 顺序 

来 执行 查询 。 


14.3 子 查询 优化 
我 们 的 主题 本 来 是 噶 归 MySQL 查询 优化 器 是 如 何 处 理子 查询 的 ， 但 是 我 还 是 有 一 万 个 担心 好 多 同学 连 子 查询 的 语 


法 都 没 掌握 全 ， 所 以 我 们 就 先 啼 明 踪 明 什 么 是 个 子 查询 (当然 不 会 面面俱到 啦 ， 只 是 说 个 大 概 哈 ) ， 然 后 再 啼 忠 
关于 子 查询 优化 的 事 儿 。 











14.3.1 子 查询 语 ; 


想必 大 家 都 是 妈妈 生 下 来 的 吧 ， 连 孙 猴 子 都 有 妈妈 一 一 石 尖 人。 怀孕 妈妈 肚子 里 的 那个 东 东 就 是 她 的 孩子 ， 类 似 
的 ， 在 一 个 查询 语句 里 的 某 个 位 置 也 可 以 有 另 一 个 查询 语句 ， 这 个 出 现在 某 个 查询 语句 的 某 个 位 置 中 的 查询 就 被 
称 为 子 查询 “(我 们 也 可 以 称 它 为 宝宝 查询 哈哈 ) ， 那 个 充当 "妈妈 "角色 的 查询 也 被 称 之 为 外 层 查询 。 不 像 人 们 








怀孕 时 宝宝 们 都 只 在 肚子 里 ， 子 查询 可 以 在 一 个 外 层 查 询 的 各 种 位 置 出 现 ， 比 如 : 


SELECT 子 句 中 
也 就 是 我 们 平时 说 的 查询 列表 中 ， 比 如 这 样 : 


ysql> SELECT (SELECT ml FROM tl LIMIT 1); 





(SELECT ml FROM tl LIMIT 1) | 








1 | 





1 row in set (0.00 sec) 


其 中 的 (SELECT ml FROM tl LIMIT 1) 就 是 我 们 路 朋 的 所 谓 的 子 查 询 。 











FROM 子 句 中 
比如 : 
SELECT m, n FROM (SELECT m2 + 1 AS m, n2 AS n FROM t2 WHERE m2 > 2) AS t: 
m n | 
4 | c | 
5 | d | 











2 rows in set (0.00 sec) 


这 个 例子 中 的 子 查询 是 : (SELECT m2 + 1 AS m，n2 AS n FROM t2 WHERE m2 > 2) ， 很 特别 的 地 方 是 它 出 
现在 了 FROM 子 句 中 。 FROM 子 句 里 边 儿 不 是 存放 我 们 要 查询 的 表 的 名 称 么 ， 这 里 放 进 来 一 个 子 查询 是 个 什么 
和 鬼 ?” 其 实 这 里 我 们 可 以 把 子 查询 的 查询 结果 当 作 是 一 个 表 ， 子 查询 后 边 的 AS t 表明 这 个 子 查询 的 结果 就 相 
当 于 一 个 名 称 为 的 表 ， 这 个 名 叫 的 表 的 列 就 是 子 查询 结果 中 的 列 ， 比 如 例子 中 表 t 就 有 两 个 列 : m 列 
和 n 列 。 这 个 放 在 FROM 子 句 中 的 子 查询 本 质 上 相当 于 一 个 表 ， 但 又 和 我 们 平常 使 用 的 表 有 点 儿 不 一 样 ， 
设计 MySQL 的 大 叔 把 这 种 由 子 查 询 结果 集 组 成 的 表 称 之 为 派生 表 。 

WHERE 或 ON 子 句 中 





把 子 查询 放 在 外 层 查 询 的 WHERE 子 句 或 者 ON 子 句 中 可 能 是 我 们 最 常用 的 一 种 使 用 子 查询 的 方式 了 ， 比 如 这 
样 : 


ysql> SELECT x* FROM tl WHERE ml IN (SELECT m2 FROM t2) ; 








ml nl | 
2 | b | 
3 | <c | 











2 rows in set (0.00 sec) 


这 个 查询 表明 我 们 想 要 将 SELECT m2 FROM t2) 这 个 子 查询 的 结果 作为 外 层 查 询 的 IN 语句 参数 ， 整 个 查询 
语句 的 意思 就 是 我 们 想 找 tl 表 中 的 某 些 记录 ， 这 些 记 录 的 ml 列 的 值 能 在 t2 表 的 m2 列 找到 匹配 的 值 。 
ORDER BY 子 句 中 


虽然 语法 支持 ， 但 没 哈 子 意义 ， 不 啼 归 这 种 情况 了 。 
GROUP BY 子 句 中 


同上 ~ 


14.3.1.1 按 返回 的 结果 集 区 分 子 查询 
因为 子 查询 本 身 也 算是 一 个 查询 ， 所 以 可 以 按照 它们 返回 的 不 同 结果 集 类 型 而 把 这 些 子 查询 分 为 不 同 的 类 型 


标量 子 查 询 
那些 只 返回 一 个 单一 值 的 子 查 询 称 之 为 标量 子 查 询 ， 比 如 这 样 : 








SELECT (SELECT ml FROM tl LIMIT 1): 
或 者 这 样 : 
SELECT x* FROM tl WHERE ml = (SELECT MIN (m2) FROM t2): 


这 两 个 查询 语句 中 的 子 查 询 都 返回 一 个 单一 的 值 ， 也 就 是 一 个 标量 。 这 些 标量 子 查询 可 以 作为 一 个 单一 值 
或 者 表达 式 的 一 部 分 出 现在 查询 语句 的 各 个 地 方 。 

行 子 查询 

顾名思义 ， 就 是 返回 一 条 记录 的 子 查询 ， 不 过 这 条 记录 需要 包含 多 个 列 (只 包含 一 个 列 就 成 了 标量 子 查 询 
了 ) 。 比 如 这 样 : 


SELECT x* FROM tl WHERE (ml, n1) = (SELECT m2, n2 FROM t2 LIMIT 1) ; 


其 中 的 (SELECT m2，n2 FROM t2 LIMIT 1) 就 是 一 个 行 子 查 询 ， 整 条 语句 的 含义 就 是 要 从 tl 表 中 找 一 些 记 
录 ， 这 些 记 录 的 ml 和 n2 列 分 别 等 于 子 查询 结果 中 的 m2 和 n2 列 。 
列子 查询 


列子 查询 自然 就 是 查询 出 一 个 列 的 数据 唆 ， 不 过 这 个 列 的 数据 需要 包含 多 条 记录 (只 包含 一 条 记录 就 成 了 标 
量子 查询 了 ) 。 比 如 这 样 : 


SELECT x* FROM tl WHERE ml IN (SELECT m2 FROM t2) ; 


其 中 的 〈SELECT m2 FROM t2) 就 是 一 个 列子 查询 ， 表 明 查 询 出 t2 表 的 m2 列 的 值 作 为 外 层 查询 IN 语句 的 参 

表 子 查询 

顾名思义 ， 就 是 子 查询 的 结果 既 包含 很 多 条 记录 ， 又 包含 很 多 个 列 ， 比 如 这 样 : 
SELECT * FROM tl WHERE (ml，nl) IN (SELECT m2, n2 FROM t2) ; 


其 中 的 (SELECT m2，n2 FROM t2) 就 是 一 个 表 子 查询 ， 这 里 需要 和 行 子 查询 对 比 一 下 ， 行 子 查询 中 我 们 用 
了 LIMIT 1 来 保证 子 查询 的 结果 只 有 一 条 记录 ， 表 子 查询 中 不 需要 这 个 限制 。 


14.3.1.2 按 与 外 层 查询 关系 来 区 分 子 查询 


不 相关 子 查询 


如 果子 查询 可 以 单独 运行 出 结果 ， 而 不 依赖 于 外 层 查询 的 值 ， 我 们 就 可 以 把 这 个 子 查询 称 之 为 不 相关 子 查 
询 。 我 们 前 边 介 绍 的 那些 子 查询 全 部 都 可 以 看 作 不 相关 子 查询 ， 所 以 也 就 不 举例 子 了 哈 。 
相关 子 查 询 


如 果子 查询 的 执行 需要 依赖 于 外 层 查 询 的 值 ， 我 们 就 可 以 把 这 个 子 查询 称 之 为 相关 子 查询 。 比 如 : 








SELECT x* FROM tl WHERE ml IN (SELECT m2 FROM t2 WHERE nl = n2) ; 


例子 中 的 子 查询 是 (SELECT m2 FROM t2 WHERE nl = n2) ， 可 是 这 个 查询 中 有 一 个 搜索 条 件 是 nl = n2 ， 别 
忘 了 nl 是 表 tl 的 列 ， 也 就 是 外 层 查 询 的 列 ， 也 就 是 说 子 查 询 的 执行 需要 依赖 于 外 层 查 询 的 值 ， 所 以 这 个 子 
查询 就 是 一 个 相关 子 查 询 。 


14.3.1.3 子 查 询 在 布尔 表达 式 中 的 使 用 
你 说 写 下 边 这 样 的 子 查询 有 了 哈 意 义 : 


SELECT (SELECT ml FROM tl LIMIT 1); 


貌似 没 啥 意义 ~ 我 们 平时 用 子 查询 最 多 的 地 方 就 是 把 它 作为 布尔 表达 式 的 一 部 分 来 作为 搜索 条 件 用 在 WHERE 子 
名 或 者 ON 子 句 里 。 所 以 我 们 这 里 来 总 结 一 下 子 查 询 在 布尔 表达 式 中 的 使 用 场景 。 


使 用 = 、 >、《、 江 、 和 所 、 人 小 、!= 、 《> 作为 布尔 表达 式 的 操作 符 


这 些 操作 符 具 体 是 哈 意 思 就 不 用 我 多 介绍 了 吧 ， 如 果 你 不 知道 的 话 ， 那 我 真 的 很 佩服 你 是 靠 着 哈 勇 气 一 口气 
看 到 这 里 的 ~ 为 了 方便 ， 我 们 就 把 这 些 操作 符 称 为 comparison operator 吧 ， 所 以 子 查询 组 成 的 布尔 表达 
操作 数 comparison operator ( 子 查 询 ) 
这 里 的 操作 数 可 以 是 基 个 列 名 ， 或 者 是 一 个 常量 ， 或 者 是 一 个 更 复杂 的 表达 式 ， 甚 至 可 以 是 另 一 个 子 查 
询 。 但 是 需要 注意 的 是 ， 这 里 的 子 查 询 只 能 是 标量 子 查 询 或 者 行 子 查询 ， 也 就 是 子 查询 的 结果 只 能 返回 一 个 
单一 的 值 或 者 只 能 是 一 条 记录 。 比 如 这 样 (标量 子 查 询 ) : 
SELECT x* FROM tl WHERE ml < (SELECT MIN(m2) FROM t2) ; 
或 者 这 样 ( 行 子 查询 ) : 
SELECT x* FROM tl WHERE (ml1，nl) = (SELECT m2, n2 FROM t2 LIMIT 1) ; 


[NOT] INMANY/SOME/ALL 子 查询 


对 于 列子 查询 和 表 子 查询 来 说 ， 它 们 的 结果 集中 包含 很 多 条 记录 ， 这 些 记录 相当 于 是 一 个 集合 ， 所 以 就 不 能 
单纯 的 和 另外 一 个 操作 数 使 用 comparison_operator 来 组 成 布尔 表达 式 了 ， MySQL 通过 下 面 的 语法 来 支持 某 
个 操作 数 和 一 个 集合 组 成 一 个 布尔 表达 式 : 
a IN 或 者 NOT IN 
具体 的 语法 形式 如 下 : 
操作 数 [NOT] IN ( 子 查 询 ) 


这 个 布尔 表达 式 的 意思 是 用 来 判断 某 个 操作 数 在 不 在 由 子 查询 结果 集 组 成 的 集合 中 ， 比 如 下 边 的 查询 的 
意思 是 找 出 t1 表 中 的 某 些 记录 ， 这 些 记录 存在 于 子 查询 的 结果 集中 : 


SELECT * FROM tl WHERE (ml, n2) IN (SELECT m2, n2 FROM t2) ; 
ANY/SOME ( ANY 和 SOME 是 同义词 ) 
具体 的 语法 形式 如 下 : 
操作 数 comparison operator ANY/SOME( 子 查询 ) 
这 个 布尔 表达 式 的 意思 是 只 要 子 查询 结果 集中 存在 某 个 值 和 给 定 的 操作 数 做 comparison_operator 比较 


结果 为 TRUE ， 那 么 整个 表达 式 的 结果 就 为 TRUE ， 否 则 整个 表达 式 的 结果 就 为 FALSE 。 比 方 说 下 边 这 
个 查询 : 





SELECT x* FROM tl WHERE ml > ANY(SELECT m2 FROM t2) ; 


这 个 查询 的 意思 就 是 对 于 tl 表 的 某 条 记录 的 ml 列 的 值 来 说 ， 如 果子 查询 (SELECT m2 FROM t2) 的 结 
果 集 中 存在 一 个 小 于 ml 列 的 值 ， 那 么 整个 布尔 表达 式 的 值 就 是 TRUE ， 否 则 为 FALSE ， 也 就 是 说 只 要 
ml 列 的 值 大 于 子 查询 结果 集中 最 小 的 值 ， 整 个 表达 式 的 结果 就 是 TRUE ， 所 以 上 边 的 查询 本 质 上 等 价 于 
这 个 查询 : 


SELECT * FROM tl WHERE ml > (SELECT MIN(m2) FROM t2); 
另外 ，=ANY 相 当 于 判断 子 查 询 结果 集中 是 否 存 在 某 个 值 和 给 定 的 操作 数 相等 ， 它 的 含义 和 IN 是 相同 


的 。 
=。 ALL 


具体 的 语法 形式 如 下 : 


操作 数 comparison operator ALL( 子 查询 ) 





这 个 布尔 表达 式 的 意思 是 子 查询 结果 集中 所 有 的 值 和 给 定 的 操作 数 做 comparison_operator 比较 结果 
为 TRUE ， 那 么 整个 表达 式 的 结果 就 为 TRUE ， 否 则 整个 表达 式 的 结果 就 为 FALSE 。 比 方 说 下 边 这 个 查 
询 : 


SELECT x* FROM tl WHERE ml > ALL(SELECT m2 FROM t2) ; 


这 个 查询 的 意思 就 是 对 于 tl 表 的 某 条 记录 的 ml 列 的 值 来 说 ， 如 果子 查询 (SELECT m2 FROM t2) 的 结 
果 集 中 的 所 有 值 都 小 于 ml 列 的 值 ， 那 么 整个 布尔 表达 式 的 值 就 是 TRUE ， 否 则 为 FALSE ， 也 就 是 说 只 
要 ml 列 的 值 大 于 子 查询 结果 集中 最 大 的 值 ， 整 个 表达 式 的 结果 就 是 TRUE ， 所 以 上 边 的 查询 本 质 上 等 价 
于 这 个 查询 : 


SELECT x* FROM tl WHERE ml > (SELECT MAX(m2) FROM t2) ; 


小 贴 士 : 
觉得 ANY 和 ALL 有 点 晕 的 同学 多 看 两 遍 哈 一 




















。 EXISTS 子 查询 


有 的 时 候 我 们 仅仅 需要 判断 子 查询 的 结果 集中 是 否 有 记录 ， 而 不 在 乎 它 的 记录 具体 是 个 啥 ， 可 以 使 用 把 
EXISTS 或 者 NOT EXISTS 放 在 子 查询 语句 前 边 ， 就 像 这 样 : 


[NOT] EXISTS ( 子 查 询 ) 





我 们 举 一 个 例子 啊 : 
SELECT x* FROM tl WHERE EXISTS (SELECT 1 FROM t2); 


对 于 子 查询 (SELECT 1 FROM t2) 来 说 ,我 们 并 不 关心 这 个 子 查询 最 后 到 底 查 询 出 的 结果 是 什么 ， 所 以 查询 
列表 里 填 * 、 某 个 列 名 ,或 者 其 他 哈 东 西 都 无 所 谓 ， 我 们 真正 关心 的 是 子 查询 的 结果 集中 是 否 存 在 记录 。 也 
就 是 说 只 要 (SELECT 1 FROM t2) 这 个 查询 中 有 记录 ， 那 么 整个 EXISTS 表达 式 的 结果 就 为 TRUE 。 
14.3.1.4 子 查 询 语法 注意 事项 
。 子 查 询 必 须 用 小 括号 扩 起 来 。 
不 扩 起 来 的 子 查 询 是 非法 的 ， 比 如 这 样 : 
mysql> SELECT SELECT ml FROM t1; 
ERROR 1064 (42000): You have an error in your SQL syntax: check the manual that corr 


esponds to your MySQL server version for the right syntax to use near ”SELECT ml FROM 
tl” at line 1 


。 在 SELECT 子 句 中 的 子 查询 必须 是 标量 子 查询 。 


如 果子 查询 结果 集中 有 多 个 列 或 者 多 个 行 ， 都 不 允许 放 在 SELECT 子 句 中 ， 也 就 是 查询 列表 中 ， 比 如 这 样 就 
是 非法 的 : 


mysql> SELECT (SELECT ml, nl FROM tl) ; 


ERROR 1241 (21000): Operand should contain 1 column(s) 


在 想 要 得 到 标量 子 查询 或 者 行 子 查询 ， 但 又 不 能 保证 子 查询 的 结果 集 只 有 一 条 记录 时 ， 应 该 使 用 LIMIT 1 语 
句 来 限制 记录 数量 。 
对 于 [NOT] IN/ANY/SOME/ALL 子 查 询 来 说 ， 子 查询 中 不 允许 有 LIMIT 语句 。 


比如 这 样 是 非法 的 : 


mysql> SELECT x FROM tl WHERE ml IN (SELECT x*¥ FROM t2 LIMIT 2) ; 


ERROR 1235 (42000): This version of MySQL doesn’ t yet support "LIMIT & IN/ALL/ANY/SO 
ME subquery 


为 哈 不 合法 ? 人 家 就 这 么 规定 的 ， 不 解释 ~ 可 能 以 后 的 版 本 会 支持 吧 。 正 因为 [NOT] IN/ANY/SOME/ALL 子 
查询 不 支持 LIMIT 语句 ， 所 以 子 查 询 中 的 这 些 语句 也 就 是 多 余 的 了 : 
" ORDER BY 子 句 


子 查询 的 结果 其 实 就 相当 于 一 个 集合 ， 集 合 里 的 值 排 不 排序 一 点 儿 都 不 重要 ， 比 如 下 边 这 个 语句 中 的 
ORDER BY 子 句 简直 就 是 画蛇添足 : 


SELECT * FROM tl WHERE ml IN (SELECT m2 FROM t2 ORDER BY m2) ; 
。 DISTINCT 语句 
集合 里 的 值 去 不 去 重 也 没 啥 意义 ， 比 如 这 样 : 
SELECT * FROM tl WHERE ml IN (SELECT DISTINCT m2 FROM t2) ; 
。 没有 聚集 国 数 以 及 HAVING 子 句 的 GROUP BY 子 句 。 
在 没有 聚集 阔 数 以 及 HAVING 子 句 时 ， GROUP BY 子 句 就 是 个 摆设 ， 比 如 这 样 : 
SELECT * FROM tl WHERE ml IN (SELECT m2 FROM t2 GROUP BY m2) ; 


对 于 这 些 匈 余 的 语句 ， 查 询 优化 器 在 一 开始 就 把 它们 给 干掉 了 。 
。 不 允许 在 一 条 语句 中 增删 改革 个 表 的 记录 时 同时 还 对 该 表 进 行 子 查询 。 


比方 说 这 样 : 
mysql> DELETE FROM tl WHERE ml < (SELECT MAX(ml) FROM tl) ; 


ERROR 1093 (HY000): You can t specify target table tl” for update in FROM clause 


14.3.2 子 查询 在 MySQL 中 是 怎么 执行 的 


好 了 ， 关 于 子 查 询 的 基础 语法 我 们 用 最 快 的 速度 温习 了 一 遍 ， 如 果 想 了 解 更 多 语法 细节 ， 大 家 可 以 去 查看 一 下 
MySQL 的 文档 哈 ， 现 在 我 们 就 假设 各 位 都 懂 了 喻 是 个 子 查询 了 喔 ， 接 下 来 就 要 路 明 具 体 某 种 类 型 的 子 查询 在 
MySQL 中 是 怎么 执行 的 了 ， 想 想 就 有 点 儿 小 激动 呢 ~ 当然 ， 为 了 故事 的 顺利 发 展 ， 我 们 的 例子 也 需要 跟随 形势 
鸟 枪 换 炮 ， 还 是 要 佘 出 我 们 用 了 n 遍 的 single_table 表 : 


CREATE TABLE single table ( 
id INT NOT NULL AUTO INCREMENT, 
keyl VARCHAR (100) ， 
key2 INT, 
key3 VARCHAR (100) ， 
key partl VARCHAR (100) ， 
key part2 VARCHAR (100) ， 
key part3 VARCHAR(100), 
common field VARCHAR (100), 
PRIMARY KEY (id), 
KEY idx keyl (keyl), 
UNIQUE KEY idx key2 (key2), 
KEY idx key3 (key3), 
KEY idx key part (key partl, key part2, key part3) 
) Engine=InnoDB CHARSET=utf8; 





为 了 方便 ,我 们 假设 有 了 两 个 表 sl1 、 s2 与 这 个 single_table 表 的 构造 是 相同 的 ， 而 且 这 两 个 表 里 边 儿 有 10000 
条 记录 ， 除 id 列 外 其 余 的 列 都 插入 随机 值 。 下 边 正 式 开始 我 们 的 表演 。 


14.3.2.1 小 白 们 眼中 子 查询 的 执行 方式 
在 我 还 是 一 个 单纯 无 知 的 少年 时 ， 觉 得 子 查询 的 执行 方式 是 这 样 的 : 
。 如 果 该 子 查 询 是 不 相关 子 查询 ， 比 如 下 边 这 个 查询 : 


SELECT x*¥ FROM sl 
WHERE keyl IN (SELECT common field FROM s2) ; 


我 年 少时 觉得 这 个 查询 是 的 执行 方式 是 这 样 的 : 
=。 先 单独 执行 (SELECT common_ field FROM s2) 这 个 子 查询 。 
。 然后 在 将 上 一 步子 查询 得 到 的 结果 当 作 外 层 查询 的 参数 再 执行 外 层 查询 SELECT x* FROM sl WHERE keyl 
IN (...) 。 
。 如 果 该 子 查询 是 相关 子 查询 ， 比 如 下 边 这 个 查询 : 


SELECT x*¥ FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE sl.key2 = s2.key2) ; 


这 个 查询 中 的 子 查询 中 出 现 了 sl. key2 = s2. key2 这 样 的 条 件 ， 意 味 着 该 子 查询 的 执行 依赖 着 外 层 查询 的 
值 ， 所 以 我 年 少时 党 得 这 个 查询 的 执行 方式 是 这 样 的 : 

先 从 外 层 查询 中 获取 一 条 记录 ， 本 例 中 也 就 是 先 从 sl 表 中 获取 一 条 记录 。 

然后 从 上 一 步骤 中 获取 的 那 条 记录 中 找 出 子 查询 中 涉及 到 的 值 ， 本 例 中 就 是 从 sl 表 中 获取 的 那 条 记录 
中 找 出 sl. key2 列 的 值 ， 然 后 执行 子 查询 。 

最 后 根据 子 查询 的 查询 结果 来 检测 外 层 查 询 WHERE 子 句 的 条 件 是 否 成 立 ， 如 果 成 立 ， 就 把 外 层 查 询 的 那 
条 记录 加 入 到 结果 集 ， 否 则 就 丢弃 。 

再 次 执行 第 一 步 ， 获 取 第 二 条 外 层 查 询 中 的 记录 ， 依 次 类 推 ~ 


告诉 我 不 只 是 我 一 个 人 是 这 样 认为 的 ， 这 样 认 为 的 同学 请 举 起 你 们 的 双手 ~ ~ ~ 哇 喇 ， 还 真 不 少 ~ 


其 实 设计 MySQL 的 大 叔 想 了 一 系列 的 办 法 来 优化 子 查询 的 执行 ， 大 部 分 情况 下 这 些 优化 措施 其 实 挺 有 效 的 ， 但 是 
保 不 齐 有 的 时 候 马 失 前 蹄 ， 下 边 我 们 详细 路 切 各 种 不 同类 型 的 子 查询 具体 是 怎么 执行 的 。 


小 贴 士 : 
我 们 下 边 即 将 啼 叫 的 关于 MySQL 优 化 子 查询 的 执行 方式 的 事 儿 都 是 基于 MySQL5. 7 这 个 版 本 的 ， 以 后 版 本 
可 能 有 更 新 的 优化 策略 ! 
































14.3.2.2 标量 子 查 询 、 行 子 查询 的 执行 方式 
我 们 经 常 在 下 边 两 个 场景 中 使 用 到 标量 子 查询 或 者 行 子 查询 : 


SELECT 子 句 中 ， 我 们 前 边 说 过 的 在 查询 列表 中 的 子 查询 必须 是 标量 子 查询 。 
。 子 查询 使 用 = 、 > 、《、 六 、 导 、 人、 != 、 《> 等 操作 符 和 某 个 操作 数组 成 一 个 布尔 表达 式 ， 这 样 
的 子 查询 必须 是 标量 子 查 询 或 者 行 子 查询 。 


对 于 上 述 两 种 场景 中 的 不 相关 标量 子 查询 或 者 行 子 查 询 来 说 ， 它 们 的 执行 方式 是 简单 的 ， 比 方 说 下 边 这 个 查询 语 
句 : 


SELECT x¥ FROM sl 
WHERE keyl = (SELECT common field FROM s2 WHERE key3 = “a LIMIT 1); 


它 的 执行 方式 和 年 少 的 我 想 的 一 样 : 


。 先 单 独 执行 (SELECT common field FROM s2 WHERE key3 = ”a”LIMIT 1) 这 个 子 查询 。 
。 然后 在 将 上 一 步子 查询 得 到 的 结果 当 作 外 层 查 询 的 参数 再 执行 外 层 查 询 SELECT x FROM sl WHERE keyl = 


也 就 是 说 ， 对 于 包含 不 相关 的 标量 子 查询 或 者 行 子 查 询 的 查询 语句 来 说 ，MySQL 会 分 别 独立 的 执行 外 层 查 询 和 子 
查询 ， 就 当 作 两 个 单 表 查询 就 好 了 。 


对 于 相关 的 标量 子 查询 或 者 行 子 查询 来 说 ， 比 如 下 边 这 个 查询 : 


SELECT FROM sl WHERE 
keyl = (SELECT common field FROM s2 WHERE sl.key3 = s2. key3 LIMIT 1) ; 


事情 也 和 年 少 的 我 想 的 一 样 ， 它 的 执行 方式 就 是 这 样 的 : 


。 先 从 外 层 查询 中 获取 一 条 记录 ， 本 例 中 也 就 是 先 从 sl 表 中 获取 一 条 记录 。 

。 然后 从 上 一 步骤 中 获取 的 那 条 记录 中 找 出 子 查询 中 涉及 到 的 值 ， 本 例 中 就 是 从 sl 表 中 获取 的 那 条 记录 中 找 
出 sl. key3 列 的 值 ， 然 后 执行 子 查询 。 

。 最 后 根据 子 查询 的 查询 结果 来 检测 外 层 查询 WHERE 子 句 的 条 件 是 否 成 立 ， 如 果 成 立 ， 就 把 外 层 查 询 的 那 条 记 
录 加 入 到 结果 集 ， 否 则 就 丢弃 。 

。 再 次 执行 第 一 步 ， 获 取 第 二 条 外 层 查 询 中 的 记录 ， 依 次 类 推 ~ 


也 就 是 说 对 于 一 开始 踪 路 的 两 种 使 用 标量 子 查 询 以 及 行 子 查询 的 场景 中 ， MySQL 优化 器 的 执行 方式 并 没有 什么 新 
鲜 的 。 
14.3.2.3 IN 子 查询 优化 


Wb RE 
对 于 不 相关 的 IN 子 查询 ， 比 如 这 样 : 


SELECT x*¥ FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = "a ); 


我 们 最 开始 的 感觉 就 是 这 种 不 相关 的 IN 子 查询 和 不 相关 的 标量 子 查询 或 者 行 子 查询 是 一 样 一 样 的 ， 都 是 把 外 层 
查询 和 子 查询 当 作 两 个 独立 的 单 表 查 询 来 对 待 ， 可 是 很 遗憾 的 是 设计 MySQL 的 大 下 为 了 优化 子 查 询 倾注 了 太 
多 心血 (毕竟 IN 子 查询 是 我 们 日 常生 活 中 最 常用 的 子 查询 类 型 ) ， 所 以 整个 执行 过 程 并 不 像 我 们 想象 的 那么 简 
单 (>_<)。 


其 实说 句 老 实话 ， 对 于 不 相关 的 IN 子 查询 来 说 ， 如 果子 查询 的 结果 集中 的 记录 条 数 很 少 ， 那 么 把 子 查询 和 外 层 
查询 分 别 看 成 两 个 单独 的 单 表 查 询 效率 还 是 塞 高 的 ， 但 是 如 果 单 独 执 行 子 查 询 后 的 结果 集 太 多 的 话 ， 就 会 导致 这 


些 问 题 : 


。 结果 集 太 多 ， 可 能 内 存 中 都 放 不 下 ~ 
。 对 于 外 层 查询 来 说 ， 如 果子 查询 的 结果 集 太 多 ， 那 就 意味 着 IN 子 句 中 的 参数 特别 多 ， 这 就 导致 : 
” 无 法 有 效 的 使 用 索引 ， 只 能 对 外 层 查 询 进行 全 表 扫 描 。 
” 在 对 外 层 查 询 执行 全 表 扫 描 时 ， 由 于 IN 子 句 中 的 参数 太 多 ， 这 会 导致 检测 一 条 记录 是 否 符合 和 IN 子 句 
中 的 参数 匹配 花费 的 时 间 太 长 。 


比如 说 IN 子 句 中 的 参数 只 有 两 个 : 
SELECT x* FROM tbl name WHERE column IN (a，b) ; 


这 样 相当 于 需要 对 tbl_name 表 中 的 每 条 记录 判断 一 下 它 的 column 列 是 否 符合 colum = a OR column 
= b 。 在 IN 子 句 中 的 参数 比较 少时 这 并 不 是 什么 问题 ， 如 果 IN 子 句 中 的 参数 比较 多 时 ， 比 如 这 样 : 


SELECT x* FROM tbl _ name WHERE column IN (a, b，c ...，...); 


那么 这 样 每 条 记录 需要 判断 一 下 它 的 column 列 是 否 符合 column = a OR colum = b OR column = < 
OR .. ，， 这 样 性 能 耗费 可 就 多 了 。 


于 是 乎 设计 MySQL 的 大 叔 想 了 一 个 招 : 不 直接 将 不 相关 子 查 询 的 结果 集 当 作 外 层 查 询 的 参数 ， 而 是 将 该 结果 集 写 
入 一 个 临时 表 里 。 写 入 临时 表 的 过 程 是 这 样 的 : 


。 该 临时 表 的 列 就 是 子 查询 结果 集中 的 列 。 
写 入 临时 表 的 记录 会 被 去 重 。 


我 们 说 IN 语句 是 判断 某 个 操作 数 在 不 在 某 个 集合 中 ， 集 合 中 的 值 重 不 重复 对 整个 IN 语句 的 结果 并 没有 啥子 
关系 ， 所 以 我 们 在 将 结果 集 写 入 临时 表 时 对 记录 进行 去 重 可 以 让 临时 表 变 得 更 小 ， 更 省 地 方 ~ 


小 贴 士 : 


临时 表 如 何 对 记录 进行 去 重 ? 这 不 是 小 意思 嘛 ， 临 时 表 也 是 个 表 ， 只 要 为 表 中 记录 的 所 有 列 建立 
主键 或 者 唯一 索引 就 好 了 嘛 一 












































一 般 情况 下 子 查 询 结果 集 不 会 大 的 离谱 ， 所 以 会 为 它 建立 基于 内 存 的 使 用 Memory 存储 引擎 的 临时 表 ， 而 且 
会 为 该 表 建 立 哈 希 索引 。 


小 贴 士 : 

IN 语 句 的 本 质 就 是 判断 某 个 操作 数 在 不 在 某 个 集合 里 ， 如 果 和 集合 中 的 数据 建立 了 哈 希 索引 ， 那 么 
这 个 匹配 的 过 程 就 是 超级 快 的 。 
有 同学 不 知道 哈 希 索引 是 什么 ? 我 这 里 就 不 展开 了 ， 自 己 上 网 找 找 吧 ， 不 会 了 再 来 问 我 一 

























































































如 果子 查询 的 结果 集 非 常 大， 超过 了 系统 变量 tmp table size 或 者 max_heap_table_ size ,临时 表 会 转 而 
使 用 基于 磁盘 的 存储 引擎 来 保存 结果 集中 的 记录 ， 索 引 类 型 也 对 应 转变 为 B+ 树 索引 。 
设计 MySQL 的 大 叔 把 这 个 将 子 查询 结果 集中 的 记录 保存 到 I 临 时 表 的 过 程 称 之 为 物化 (英文 名 : 
Materialize ) 。 为 了 方便 起 见 ， 我 们 就 把 那个 存储 子 查询 结果 集 的 临时 表 称 之 为 物化 表 。 正 因为 物化 表 中 的 
记录 都 建立 了 索引 (基于 内 存 的 物化 表 有 哈 希 索引 ， 基 于 磁盘 的 有 B+ 树 索引 ) ， 通 过 索引 执行 I 语句 判断 某 个 
操作 数 在 不 在 子 查询 结果 集中 变 得 非常 快 ， 从 而 提升 了 子 查 询 语句 的 性 能 。 


物化 南 落 产 故 
事情 到 这 就 完了 ”我 们 还 得 重新 审视 一 下 最 开始 的 那个 查询 语句 : 


SELECT x¥ FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = "a ); 


当 我 们 把 子 查 询 进行 物化 之 后 ， 假 设 子 查询 物化 表 的 名 称 为 materialized_table ， 该 物化 表 人 存储 的 子 查询 结 
集 的 列 为 m_val ， 那 么 这 个 查询 其 实 可 以 从 下 边 两 种 角度 来 看 待 : 


。 从 表 sl 的 角度 来 看 待 ， 整 个 查询 的 意思 其 实 是 : 对 于 sl 表 中 的 每 条 记录 来 说 ， 如 果 该 记录 的 keyl 列 的 值 
在 子 查询 对 应 的 物化 表 中 ， 则 该 记录 会 被 加 入 最 终 的 结果 集 。 画 个 图 表示 一 下 就 是 这 样 : 


步骤 一 : 先 扫描 s1 表 ， 
从 每 条 记录 中 取出 key1 列 的 值 ， 


Ss1 表 


materialized_table 表 


m_val = XXX 











”步骤 二 : 从 materialized table 、 
中 找 出 m val = xxx 的 记录 。 ， 


从 子 查询 物化 表 的 角度 来 看 待 ， 整 个 查询 的 意思 其 实 是 : 对 于 子 查询 物化 表 的 每 个 值 来 说 ， 如 果 能 在 sl 表 
中 找到 对 应 的 keyl 列 的 值 与 该 值 相 等 的 记录 ， 那 么 就 把 这 些 记录 加 入 到 最 终 的 结果 集 。 画 个 图 表示 一 下 就 
是 这 样 : 


步骤 一 : 先 扫 描 
s1 表 materialized table 表 ， 从 每 条 
记录 中 取出 m_val 列 的 值 ， 这 里 
假设 该 值 为 xxx 。 


materialized_table 表 


key1 = XXX 








步骤 二 : 从 s1 表 中 找 出 
key1 = xxx 的 记录 


也 就 是 说 其 实 上 边 的 查询 就 相当 于 表 sl 和 子 查询 物化 表 materialized_table 进行 内 连接 : 
SELECT sl.*¥ FROM sl INNER JOIN materialized table ON keyl = m val; 
转化 成 内 连接 之 后 就 有 意思 了 ， 查 询 优 化 器 可 以 评估 不 同 连接 顺序 需要 的 成 本 是 多 少 ， 选 取 成 本 最 低 的 那 种 查询 
方式 执行 查询 。 我 们 分 析 一 下 上 述 查 询 中 使 用 外 层 查 询 的 表 sl 和 物化 表 materialized_table 进行 内 连接 的 成 本 
都 是 由 哪 几 部 分 组 成 的 : 
。 如 果 使 用 sl 表 作为 驱动 表 的 话 ， 总 查询 成 本 由 下 边 几 个 部 分 组 成 : 


， 物化 子 查 询 时 需要 的 成 本 


。 扫描 sl 表 时 的 成 本 
s1 表 中 的 记录 数量 x 通过 m_val = xxx 对 materialized_table 表 进 行 单 表 访 问 的 成 本 (我 们 前 边 说 过 


物化 表 中 的 记录 是 不 重复 的 ， 并 且 为 物化 表 中 的 列 建立 了 索引 ， 所 以 这 个 步骤 显然 是 非常 快 的 ) 。 
。 如 果 使 用 materialized_table 表 作 为 驱动 表 的 话 ， 总 查询 成 本 由 下 边 几 个 部 分 组 成 : 
= 物化 子 查询 时 需要 的 成 本 


”扫描 物化 表 时 的 成 本 
”物化 表 中 的 记录 数量 x 通过 keyl = xxx 对 sl 表 进 行 单 表 访问 的 成 本 (非常 庆幸 keyl 列 上 建立 了 索 


引 ， 所 以 这 个 步骤 是 非常 快 的 ) 。 
MySQL 查询 优化 器 会 通过 运算 来 选择 上 述 成 本 更 低 的 方案 来 执行 查询 。 


光 了 音 鸭 拷 抱 为 semi-join 
虽然 将 子 查询 进行 物化 之 后 再 执行 查询 都 会 有 建立 临时 表 的 成 本 ， 但 是 不 管 怎么 说 ， 我 们 见识 到 了 将 子 查询 转换 
为 连接 的 强大 作用 ， 设 计 MySQL 的 大 叔 继续 开 脑 洞 : 能 不 能 不 进行 物化 操作 直接 把 子 查询 转换 为 连接 呢 ? 让 我 们 


重新 审视 一 下 上 边 的 查询 语句 : 


SELECT x* FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = "a ); 


我 们 可 以 把 这 个 查询 理解 成 : 对 于 sl 表 中 的 某 条 记录 ， 如 果 我 们 能 在 s2 表 (准确 的 说 是 执行 完 WHERE s2. key3 
= a” 之 后 的 结果 集 ) 中 找到 一 条 或 多 条 记录 ， 这 些 记录 的 common_field 的 值 等 于 sl 表 记 录 的 keyl 列 的 值 ， 
那么 该 条 sl 表 的 记录 就 会 被 加 入 到 最 终 的 结果 集 。 这 个 过 程 其 实 和 把 sl 和 s2 两 个 表 连 接 起 来 的 效果 很 像 : 


SELECT sl.*¥ FROM sl INNER JOIN s2 
ON sl.keyl = s2. common field 
WHERE s2.key3 = "a; 


只 不 过 我 们 不 能 保证 对 于 sl 表 的 某 条 记录 来 说 ， 在 s2 表 (准确 的 说 是 执行 完 WHERE s2. key3 = “a ”之 后 的 结 
果 集 ) 中 有 多 少 条 记录 满足 sl. keyl = s2. common_field 这 个 条 件 ， 不 过 我 们 可 以 分 三 种 情况 讨论 : 


。 情况 一 : 对 于 sl 表 的 某 条 记录 来 说 ， s2 表 中 没有 任何 记录 满足 sl. keyl = s2. common_ field 这 个 条 件 ， 
那么 该 记录 自然 也 不 会 加 入 到 最 后 的 结果 集 。 

。 情况 二 : 对 于 sl 表 的 某 条 记录 来 说 ， s2 表 中 有 且 只 有 记录 满足 sl. keyl = s2. common field 这 个 条 件 ， 
那么 该 记录 会 被 加 入 最 终 的 结果 集 。 

。 情况 三 : 对 于 sl 表 的 某 条 记录 来 说 ， s2 表 中 至 少 有 2 条 记录 满足 sl. keyl = s2. common_field 这 个 条 件 ， 
那么 该 记录 会 被 多 次 加 入 最 终 的 结果 集 。 


对 于 sl 表 的 某 条 记录 来 说 ， 由 于 我 们 只 关心 s2 表 中 是 否 存 在 记录 满足 sl. keyl = s2. common field 这 个 条 
件 ， 而 不 关心 具体 有 多 少 条 记录 与 之 匹配 ， 又 因为 有 情况 三 的 存在 ,我 们 上 边 所 说 的 IN 子 查 询 和 两 表 连 接 之 间 
并 不 完全 等 价 。 但 是 将 子 查询 转换 为 连接 又 真 的 可 以 充分 发 挥 优化 器 的 作用 ， 所 以 设计 MySQL 的 大 叔 在 这 里 提出 
了 一 个 新 概念 --- 半 连 接 (英文 名 : semi-join ) 。 将 sl 表 和 s2 表 进 行 半 连接 的 意思 就 是 : 对 于 sl 表 的 某 
条 记录 来 说 ， 我 们 只 关心 在 s2 表 中 是 否 存 在 与 之 匹配 的 记录 是 否 存 在 ， 而 不 关心 具体 有 多 少 条 记录 与 之 匹配 ， 
最 终 的 结果 集中 只 保留 sl 表 的 记录 。 为 了 让 大 家 有 更 直观 的 感受 ， 我 们 假设 MySQL 内 部 是 这 么 改写 上 边 的 子 查 
询 的 : 








SELECT sl.*¥ FROM sl SEMI JOIN s2 
ON Sl1.keyl = s2. common field 
WHERE key3 = "a ; 


小 贴 士 : 

semi-join 只 是 在 MySQL 内 部 采用 的 一 种 执行 子 查询 的 方式 ，MySQL 并 没有 提供 面向 用 户 的 semi-join 语 
法 ， 所 以 我 们 不 需要 ， 也 不 能 尝试 把 上 边 这 个 语句 放 到 黑 框框 里 运行 ， 我 只 是 想 说 明 一 下 上 边 的 子 查 询 
在 MySQL 内 部 会 被 转换 为 类 似 上 边 语句 的 半 连 接 一 


概念 是 有 了 ， 怎 么 实现 这 种 所 谓 的 半 连 接 呢 ? 设计 MySQL 的 大 叔 准备 了 好 几 种 办 法 。 
Table pullout ( 子 查 询 中 的 表 上 拉 ) 


当 子 查询 的 查询 列表 处 只 有 主键 或 者 唯一 索引 列 时 ， 可 以 直接 把 子 查询 中 的 表 上 拉 到 外 层 查 询 的 FROM 子 句 
中 ， 并 把 子 查询 中 的 搜索 条 件 合并 到 外 层 查询 的 搜索 条 件 中 ， 比 如 这 个 




































































SELECT x* FROM sl 
WHERE key2 IN (SELECT key2 FROM s2 WHERE key3 = a ); 


由 于 key2 列 是 s2 表 的 唯一 二 级 索引 列 ， 所 以 我 们 可 以 直接 把 s2 表 上 拉 到 外 层 查询 的 FROM 子 句 中 ， 并 且 
把 子 查询 中 的 搜索 条 件 合并 到 外 层 查询 的 搜索 条 件 中 ， 上 拉 之 后 的 查询 就 是 这 样 的 : 


SELECT sl.*¥ FROM sl INNER JOIN S2 
ON sl. key2 = s2. key2 
WHERE s2.key3 = a ; 


为 哈 当 子 查询 的 查询 列表 处 只 有 主键 或 者 唯一 索引 列 时 ， 就 可 以 直接 将 子 查询 转换 为 连接 查询 呢 ? 哎呀 ， 主 
键 或 者 唯一 索引 列 中 的 数据 本 身 就 是 不 重复 的 嘛 ! 所 以 对 于 同一 条 sl 表 中 的 记录 ， 你 不 可 能 找到 两 条 以 上 
的 符合 s1. key2 = s2. key2 的 记录 呀 ~ 

DuplicateWeedout execution strategy (重复 值 消除 ) 


对 于 这 个 查询 来 说 : 


SELECT x*¥ FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = "a ); 


转换 为 半 连 接 查 询 后 ， sl 表 中 的 某 条 记录 可 能 在 s2 表 中 有 多 条 匹配 的 记录 ， 所 以 该 条 记录 可 能 多 次 被 添加 
到 最 后 的 结果 集中 ， 为 了 消除 重复 ， 我 们 可 以 建立 一 个 临时 表 ， 比 方 说 这 个 临时 表 长 这 样 : 


CREATE TABLE tmp ( 
id PRIMARY KEY 
ss 


这 样 在 执行 连接 查询 的 过 程 中 ， 每 当 某 条 sl 表 中 的 记录 要 加 入 结果 集 时 ， 就 首先 把 这 条 记录 的 id 值 加 入 到 
这 个 临时 表 里 ， 如 果 添 加 成 功 ， 说 明之 前 这 条 sl 表 中 的 记录 并 没有 加 入 最 终 的 结果 集 ， 现 在 把 该 记录 添加 
到 最 终 的 结果 集 ; 如 果 添 加 失败 ， 说 明 这 条 之 前 这 条 sl 表 中 的 记录 已 经 加 入 过 最 终 的 结果 集 ， 这 里 直接 把 
它 丢 弃 就 好 了 ， 这 种 使 用 临时 表 消 除 semi-join 结果 集中 的 重复 值 的 方式 称 之 为 DuplicateWeedout 。 
LooseScan execution strategy (松散 索引 扫描 ) 


大 家 看 这 个 查询 : 


SELECT x*¥ FROM sl 
WHERE key3 IN (SELECT keyl FROM s2 WHERE keyl > a AND keyl < ’b’); 


在 子 查询 中 ， 对 于 s2 表 的 访问 可 以 使 用 到 keyl 列 的 索引 ， 而 恰好 子 查询 的 查询 列表 处 就 是 keyl 列 ， 这 样 
在 将 该 查询 转换 为 半 连 接 查 询 后 ， 如 果 将 s2 作为 驱动 表 执行 查询 的 话 ， 那 么 执行 过 程 就 是 这 样 : 


s2 表 的 idx_key1 索 引 s1 表 


这 3 条 二 级 索引 记录 的 key1 列 的 
值 都 是 'aa'， 所 以 只 需要 取 第 一 个 
值 到 s1 表 中 找 满足 s1. key3='aa' 
的 记录 


同 理 ， 这 2 条 二 级 索引 记录 的 key1 

列 的 值 都 是 'ab'， 所 以 只 需要 取 第 一 个 
值 到 s1 表 中 找 满 足 s1. key3='ab' 

的 记录 





同 理 a 


如 图 所 示 ， 在 s2 表 的 idx_keyl 索引 中 , 值 为 "aa 的 二 级 索引 记录 一 共有 3 条 ， 那 么 只 需要 取 第 一 条 的 值 
到 sl 表 中 查找 sl. key3 =“aa” 的 记录 ， 如 果 能 在 sl 表 中 找到 对 应 的 记录 ， 那 么 就 把 对 应 的 记录 加 入 到 | 结 
果 集 。 依 此 类 推 ， 其 他 值 相同 的 二 级 索引 记录 ， 也 只 需要 取 第 一 条 记录 的 值 到 sl 表 中 找 匹配 的 记录 ， 这 种 
虽然 是 扫描 索引 ， 但 只 取 值 相 同 的 记录 的 第 一 条 去 做 匹配 操作 的 方式 称 之 为 松散 索引 扫描 。 


Semi-join Materialization execution strategy 


我 们 之 前 介绍 的 先 把 外 层 查 询 的 IN 子 句 中 的 不 相关 子 查 询 进 行 物 化 ， 然 后 再 进行 外 层 查 询 的 表 和 物化 表 的 
连接 本 质 上 也 算是 一 种 semi-join ， 只 不 过 由 于 物化 表 中 没有 重复 的 记录 ， 所 以 可 以 直接 将 子 查询 转 为 连接 
查询 。 

FirstMatch execution strategy (首次 匹配 ) 


FirstMatch 是 一 种 最 原始 的 半 连 接 执行 方式 ， 跟 我 们 年 少时 认为 的 相关 子 查 询 的 执行 方式 是 一 样 一 样 的 ， 
就 是 说 先 取 一 条 外 层 查询 的 中 的 记录 ， 然 后 到 子 查询 的 表 中 寻找 符合 匹配 条 件 的 记录 ， 如 果 能 找到 一 条 ， 则 
将 该 外 层 查询 的 记录 放 入 最 终 的 结果 集 并 且 停 止 查找 更 多 匹配 的 记录 ， 如 果 找 不 到 则 把 该 外 层 查询 的 记录 和 
弃 掉 ; 然后 再 开始 取 下 一 条 外 层 查 询 中 的 记录 ， 重 复 上 边 这 个 过 程 。 


对 于 某 些 使 用 IN 语句 的 相关 子 查 询 ， 比 方 这 个 查询 : 


SELECT x¥ FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE sl.key3 = s2.key3); 


它 也 可 以 很 方便 的 转 为 半 连 接 ， 转 换 后 的 语句 类 似 这 样 : 


SELECT sl.* FROM sl SEMI JOIN s2 
ON sl.keyl = s2. common field AND sl1. key3 = s2. key3; 


然后 就 可 以 使 用 我 们 上 边 介绍 过 的 DuplicateWeedout 、 LooseScan 、 FirstMatch 等 半 连 接 执行 策略 来 执行 查 
询 ， 当 然 ， 如 果子 查询 的 查询 列表 处 只 有 主键 或 者 唯一 二 级 索引 列 ， 还 可 以 直接 使 用 table pullout 的 策略 来 执 
行 查询 ,但 是 需要 大 家 注意 的 是 ， 由 于 相关 子 查询 并 不 是 一 个 独立 的 查询 ， 所 以 不 能 转换 为 物化 表 来 执行 查询 。 


semi-joinf%E 关 Rf 
当然 ， 并 不 是 所 有 包含 IN 子 查 询 的 查询 语句 都 可 以 转换 为 semi-join ， 只 有 形 如 这 样 的 查询 才 可 以 被 转换 为 
semi—join : 


SELECT ... FROM outer tables 
WHERE expr IN (SELECT ... FROM inner tables ...) AND .. 


或 者 这 样 的 形式 也 可 以 : 


SELECT ... FROM outer tables 
WHERE (oel，oe2，...) IN (SELECT iel, ie2, ... FROM inner tables ...) AND .. 


用 文字 总 结 一 下 ， 只 有 符合 下 边 这 些 条 件 的 子 查询 才 可 以 被 转换 为 semi-join : 


。 该 子 查询 必须 是 和 IN 语句 组 成 的 布尔 表达 式 ， 并 且 在 外 层 查询 的 WHERE 或 者 ON 子 句 中 出 现 。 
。 外 层 查 询 也 可 以 有 其 他 的 搜索 条 件 ， 只 不 过 和 IN 子 查询 的 搜索 条 件 必须 使 用 AND 连接 起 来 。 
。 该 子 查询 必须 是 一 个 单一 的 查询 ， 不 能 是 由 若干 查询 由 UNION 连接 起 来 的 形式 。 
。 该 子 查 询 不 能 包含 GROUP BY 或 者 HAVING 语句 或 者 聚集 国 数 。 
。 … 还 有 一 些 条 件 比 较 少 见 ， 就 不 史 归 啦 ~ 

不 区 万 天 emi-join 括 篇 汉 

对 于 一 些 不 能 将 子 查询 转 位 semi-join 的 情况 ， 典 型 的 比如 下 边 这 几 种 : 
。 外 层 查询 的 WHERE 条 件 中 有 其 他 搜索 条 件 与 IN 子 查询 组 成 的 布尔 表达 式 使 用 OR 连接 起 来 


SELECT x*¥ FROM sl 
WHERE keyl IN (SELECT common field FROM s2 WHERE key3 = "a ) 
OR key2 > 100; 


。 使 用 NOT IN 而 不 是 IN 的 情况 


SELECT x*¥ FROM sl 
WHERE keyl NOT IN (SELECT common field FROM s2 WHERE key3 = "a ) 


。 在 SELECT 子 句 中 的 IN 子 查询 的 情况 


SELECT keyl IN (SELECT common field FROM s2 WHERE key3 = "a ) FROM sl ; 
。 子 查询 中 包含 GROUP BY 、 HAVING 或 者 聚集 函数 的 情况 


SELECT x* FROM sl 
WHERE key2 IN (SELECT COUNT (#) FROM s2 GROUP BY keyl) ; 


。 子 查询 中 包含 UNION 的 情况 


SELECT x* FROM sl WHERE keyl IN ( 
SELECT common field FROM s2 WHERE key3 = "a 
UNION 
SELECT common field FROM s2 WHERE key3 = “bb 
让 


MySQL 仍然 留 了 两 手 绝活 来 优化 不 能 转 为 semi-join 查询 的 子 查询 ， 那 就 是 : 
。 对 于 不 相关 子 查询 来 说 ， 可 以 尝试 把 它们 物化 之 后 再 参与 查询 
比如 我 们 上 边 提 到 的 这 个 查询 : 


SELECT x¥ FROM sl 
WHERE keyl NOT IN (SELECT common field FROM s2 WHERE key3 = "a ) 





先 将 子 查询 物化 ， 然 后 再 判断 keyl 是 否 在 物化 表 的 结果 集中 可 以 加 快 查询 执行 的 速度 。 
小 贴 士 : 











请 注意 这 里 将 子 查 询 物化 之 后 不 能 转 为 和 外 层 查 询 的 表 的 连接 ， 只 能 是 先 扫描 s1 表 ， 然 后 对 sl 表 
的 某 条 记录 来 说 ， 判 断 该 记录 的 keyl 值 在 不 在 物化 表 中 。 


不 管子 查询 是 相关 的 还 是 不 相关 的 ， 都 可 以 把 IN 子 查询 尝试 专 为 EXISTS 子 查询 
其 实 对 于 任意 一 个 IN 子 查询 来 说 ， 都 可 以 被 转 为 EXISTS 子 查询 ， 通 用 的 例子 如 下 : 






























































outer expr IN (SELECT inner expr FROM ... WHERE subquery where) 
可 以 被 转换 为 : 
EXISTS (SELECT inner expr FROM ... WHERE subquery where AND outer expr=inner expr) 


当然 这 个 过 程 中 有 一 些 特殊 情况 ， 比 如 在 outer_expr 或 者 inner_expr 值 为 NULL 的 情况 下 就 比较 特殊 。 
为 有 NULL 值 作为 操作 数 的 表达 式 结果 往往 是 NULL ， 比 方 说 : 


mysql> SELECT NULL IN (1，2，3) ; 





NULL IN (1，2，3) 





NULL 











1 row in set (0. 00 sec) 


mysql> SELECT 1 IN (1，2，3) ; 





1 IN (1，2，3) 














1 row in set (0. 00 sec) 


mysql> SELECT NULL IN _ (CNULL) ; 





NULL IN (NULL) 





NULL 











1 row in set (0. 00 sec) 
而 EXISTS 子 查询 的 结果 肯定 是 TRUE 或 者 FASLE : 


mysql> SELECT EXISTS (SELECT 1 FROM sl WHERE NULL = 1); 





EXISTS (SELECT 1 FROM sl WHERE NULL = 1) 














1 row in set (0.01 sec) 


mysql> SELECT EXISTS (SELECT 1 FROM sl WHERE 1 = NULL) ; 





EXISTS (SELECT 1 FROM sl WHERE 1 = NULL) 














1 row in set (0.00 sec) 


mysql> SELECT EXISTS (SELECT 1 FROM sl WHERE NULL = NULL); 





EXISTS (SELECT 1 FROM sl WHERE NULL = NULL) 














1 row in set (0.00 sec) 


但 是 幸运 的 是 ， 我 们 大 部 分 使 用 IN 子 查询 的 场景 是 把 它 放 在 WHERE 或 者 ON 子 句 中 ， 而 WHERE 或 者 ON 子 
句 是 不 区 分 NULL 和 FALSE 的 ， 比 方 说 : 


mysql> SELECT 1 FROM sl WHERE NULL ; 
Empty set (0. 00 sec) 


mysql> SELECT 1 FROM sl WHERE FALSE; 
Empty set (0. 00 sec) 


所 以 只 要 我 们 的 IN 子 查询 是 放 在 WHERE 或 者 ON 子 句 中 的 ， 那 么 IN -> EXISTS 的 转换 就 是 没 问题 的 。 说 了 
这 么 多 ， 为 哈 要 转换 呢 ? 这 是 因为 不 转换 的 话 可 能 用 不 到 索引 ， 比 方 说 下 边 这 个 查询 : 


SELECT x*¥ FROM sl 
WHERE keyl IN (SELECT key3 FROM s2 where sl.common field = s2. common field) 
OR key2 > 1000; 


这 个 查询 中 的 子 查询 是 一 个 相关 子 查 询 ， 而 且 子 查询 执行 的 时 候 不 能 使 用 到 索引 ， 但 是 将 它 转 为 EXISTS 子 
查询 后 却 可 以 使 用 到 索引 : 


SELECT x*¥ FROM sl 
WHERE EXISTS (SELECT 1 FROM s2 where sl.common field = s2. common field AND s2. ke 
y3 = sl. keyl) 
OR key2 > 1000; 


转 为 EXISTS 子 查 询 时 便 可 以 使 用 到 s2 表 的 idx_key3 索引 了 。 


需要 注意 的 是 ， 如 果 IN 子 查询 不 满足 转换 为 semi-join 的 条 件 ， 又 不 能 转换 为 物化 表 或 者 转换 为 物化 表 的 
成 本 太 大 ， 那 么 它 就 会 被 转换 为 EXISTS 查询 。 


小 贴 士 : 
在 MySQL5. 5 以 及 之 前 的 版 本 没有 引进 semi-join 和 物化 的 方式 优化 子 查询 时 ， 优 化 器 都 会 把 IN 子 
查询 转换 为 EXISTS 子 查询 ， 好 多 同学 就 惊 呼 我 明明 写 的 是 一 个 不 相关 子 查询 ， 为 喻 要 按照 执行 相关 
子 查 询 的 方式 来 执行 呢 ? 所 以 当时 好 多 声音 都 是 建议 大 家 把 子 查 询 转 为 连接 ， 不 过 随 着 MySQL 的 发 
展 ， 最 近 的 版 本 中 引入 了 非常 多 的 子 查询 优化 策略 ， 大 家 可 以 稍微 放心 的 使 用 子 查询 了 ， 内 部 的 转 

换 工 作 优化 器 会 为 大 家 自动 实现 。 













































































4 对 一 下 


。 如 果 IN 子 查询 符合 转换 为 semi-join 的 条 件 ， 查 询 优 化 器 会 优先 把 该 子 查询 为 semi-join ， 然 后 再 考虑 下 
边 5 种 执行 半 连 接 的 策略 中 哪个 成 本 最 低 : 

Table pullout 

DuplicateWeedout 

LooseScan 

Materialization 

FirstMatch 


选择 成 本 最 低 的 那 种 执行 策略 来 执行 子 查询 。 
。 如 果 IN 子 查询 不 符合 转换 为 semi-join 的 条 件 ， 那 么 查询 优化 器 会 从 下 边 两 种 策略 中 找 出 一 种 成 本 更 低 的 
方式 执行 子 查询 : 
" 先 将 子 查询 物 化 之 后 再 执行 查询 
a 执行 IN to EXISTS 转换 。 


14.3.2.4 ANY/ALL 子 查询 优化 
如 果 ANY/ALL 子 查询 是 不 相关 子 查询 的 话 ， 它 们 在 很 多 场合 都 能 转换 成 我 们 熟悉 的 方式 去 执行 ， 比 方 说 : 


原始 表达 式 转换 为 


原始 表达 式 转换 为 


<ANY (SELECT inner_expr ...) < (SELECT MAX(inner_expr)...) 
> ANY (SELECT inner_expr.) > (SELECT MIN(inner expr)...) 
< ALL (SELECT inner_expr.…) < (SELECT MiIN(inner expr)...) 


> ALL (SELECT inner_expr ...) > (SELECT MAX(inner_expr) …) 


14.3.2.5 [NOT] EXISTS 子 查询 的 执行 


如 果 [NOT] EXISTS 子 查 询 是 不 相关 子 查询 ， 可 以 先 执行 子 查询 ， 得 出 该 [NOT] EXISTS 子 查询 的 结果 是 TRUE 还 
是 FALSE ， 并 重 写 原先 的 查询 语句 ， 比 如 对 这 个 查询 来 说 : 


SELECT x* FROM sl 
WHERE EXISTS (SELECT 1 FROM s2 WHERE keyl = a ) 
OR key2 > 100; 


因为 这 个 语句 里 的 子 查询 是 不 相关 子 查 询 ， 所 以 优化 器 会 首先 执行 该 子 查询 ， 假 设 该 EXISTS 子 查询 的 结果 为 
TRUE ， 那 么 接着 优化 器 会 重 写 查询 为 : 


SELECT FROM sl 
WHERE TRUE OR key2 > 100; 


进一步 简化 后 就 变 成 了 : 


SELECT x*¥ FROM sl 
WHERE TRUE ; 


对 于 相关 的 [NOT] EXISTS 子 查询 来 说 ， 比 如 这 个 查询 : 


SELECT x¥ FROM sl 
WHERE EXISTS (SELECT 1 FROM s2 WHERE sl1. common field = s2. common field) ; 


很 不 幸 ， 这 个 查询 只 能 按照 我 们 年 少时 的 那 种 执行 相关 子 查 询 的 方式 来 执行 。 不 过 如 果 [NOT] EXISTS 子 查询 中 
如 果 可 以 使 用 索引 的 话 ， 那 查询 速度 也 会 加 快 不 少 ， 比 如 : 


SELECT FROM sl 
WHERE EXISTS (SELECT 1 FROM s2 WHERE sl. common field = s2. keyl); 


上 边 这 个 EXISTS 子 查询 中 可 以 使 用 idx keyl 来 加 快 查询 速度 。 


14.3.2.6 对 于 派生 表 的 优化 


我 们 前 边 说 过 把 子 查询 放 在 外 层 查询 的 FROM 子 句 后 ， 那 么 这 个 子 查询 的 结果 相当 于 一 个 派生 
查询 : 


| 








攻 ， 比 如 下 边 这 个 


SELECT x* FROM ( 
SELECT id AS d id, key3 AS d key3 FROM s2 WHERE keyl = ”ay 
) AS derived sl WHERE d key3 = "a ; 


子 查 询 ( SELECT id AS d id， key3 AS d key3 FROM s2 WHERE keyl = “a ) 的 结果 就 相当 于 一 个 派生 表 ， 这 
个 表 的 名 称 是 derived_sl ， 该 表 有 了 两 个 列 ,分别 是 d_ id 和 d_ key3 。 


对 于 含有 派生 表 的 查询 ， MySQL 提供 了 两 种 执行 策略 : 
。 最 容易 想到 的 就 是 把 派生 表 物 化 。 


我 们 可 以 将 派生 表 的 结果 集 写 到 一 个 内 部 的 临时 表 中 ， 然 后 就 把 这 个 物化 表 当 作 普通 表 一 样 参与 查询 。 当 
然 ， 在 对 派生 表 进 行 物化 时 ， 设 计 MySQL 的 大 叔 使 用 了 一 种 称 为 延迟 物化 的 策略 ， 也 就 是 在 查询 中 真正 使 
用 到 派生 表 时 才 回 去 尝试 物化 派生 表 ， 而 不 是 还 没 开始 执行 查询 呢 就 把 派生 表 物 化 掉 。 比 方 说 对 于 下 边 这 个 
含有 派生 表 的 查询 来 说 : 


SELECT x* FROM ( 
SELECT x* FROM sl WHERE keyl = "a 
) AS derived sl INNER JOIN s2 
ON derived sl.keyl = s2.keyl 
WHERE s2. key2 = 1; 


如 果 采 用 物化 派生 表 的 方式 来 执行 这 个 查询 的 话 ， 那 么 执行 时 首先 会 到 sl 表 中 找 出 满足 sl. key2 = 1 的 记 
录 ， 如 果 压 根 儿 找 不 到 ， 说 明 参 与 连接 的 sl 表 记 录 就 是 空 的 ， 所 以 整个 查询 的 结果 集 就 是 空 的 ， 所 以 也 就 
没有 必要 去 物化 查询 中 的 派生 表 了 。 

。 将 派生 表 和 外 层 的 表 合并 ， 也 就 是 将 查询 重 写 为 没有 派生 表 的 形式 
我 们 来 看 这 个 贼 简单 的 包含 派生 表 的 查询 : 


SELECT x FROM (SELECT x* FROM sl WHERE keyl = "a ) AS derived sl; 





这 个 查询 本 质 上 就 是 想 查 看 s1 表 中 满足 keyl =“a” 条 件 的 的 全 部 记录 ， 所 以 和 下 边 这 个 语句 是 等 价 的 : 
SELECT * FROM sl WHERE keyl = "a’; 
对 于 一 些 稍微 复杂 的 包含 派生 表 的 语句 ， 比 如 我 们 上 边 提 到 | 的 那个 : 


SELECT x* FROM ( 
SELECT x* FROM sl WHERE keyl = °° a 
) AS derived sl INNER JOIN s2 
ON derived sl.keyl = s2. keyl 
WHERE s2. key2 = 1; 


我 们 可 以 将 派生 表 与 外 层 查 询 的 表 合 并 ， 然 后 将 派生 表 中 的 搜索 条 件 放 到 外 层 查 询 的 搜索 条 件 中 ， 就 像 这 
样 : 


SELECT x*¥ FROM sl INNER JOIN s2 
ON sl.keyl = s2. keyl 
WHERE sl.keyl = a AND s2.key2 = 1; 


这 样 通过 将 外 层 查 询 和 派生 表 合 并 的 方式 成 功 的 消除 了 派生 表 ， 也 就 意味 着 我 们 没 必 要 再 付出 创建 和 访问 临 
时 表 的 成 本 了 。 可 是 并 不 是 所 有 带 有 派生 表 的 查询 都 能 被 成 功 的 和 外 层 查 询 合并 ， 当 派生 表 中 有 这 些 语句 就 
不 可 以 和 外 层 查询 合并 : 

= 聚集 函数 ， 比 如 MAX()、MIN()、SUM() 哈 的 

s。 DISTINCT 

。 GROUP BY 

" HAVING 

= LIMIT 

as。 UNION 或 者 UNION ALL 

。 派生 表 对 应 的 子 查询 的 SELECT 子 句 中 含有 另 一 个 子 查询 

" … 还 有 些 不 常用 的 情况 就 不 多 说 了 哈 ~ 


所 以 MySQL 在 执行 带 有 派生 表 的 时 人 息 ， 优 先 尝试 把 派生 表 和 外 层 查 询 合 并 掉 ， 如 果 不 行 的 话 ， 表 把 派生 表 物 化 掉 
执行 查询 。 


15 第 15 章 查询 优化 的 百科 全 书 -Explain 详 解 (上 ) 


标签 : MySQL 是 怎样 运行 的 


条 查询 语句 在 经 过 MySQL 查询 优化 器 的 各 种 基于 成 本 和 规则 的 优化 会 后 生成 一 个 所 谓 的 执行 计划 ， 这 个 执行 
计划 展示 了 接 下 来 具体 执 了 查询 的 方式 ， 比 如 多 表 连 接 的 顺序 是 什么 ， 对 于 每 个 表 采 用 什么 访问 方法 来 具体 执行 
查询 等 等 。 设 计 MySQL 的 大 叔 贴心 的 为 我 们 提供 了 EXPLAIN 语句 来 帮助 我 们 查看 某 个 查询 语句 的 具体 执行 计划 ， 
本 章 的 内 容 就 是 为 了 帮助 大 家 看 懂 EXPLAIN 语句 的 各 个 输出 项 都 是 干 嘛 使 的 ， 从 而 可 以 有 针对 性 的 提升 我 们 查询 
语句 的 性 能 。 


如 果 我 们 想 看 看 某 个 查询 的 执行 计划 的 话 ， 可 以 在 具体 的 查询 语句 前 边 加 一 个 EXPLAIN ， 就 像 这 样 : 


mysql> EXPLAIN SELECT 1; 








id | select type | table | partitions | type | possible keys | key key len | ref |r 


ows | filtered | Extra 








1 | SIMPLE | NULL | NULL NULL | NULL | NULL | NULL | NULL | N 
ULL NULL | No tables used 
































1 row in set, 1 warning (0.01 sec) 


然后 这 输出 的 一 大 坨 东西 就 是 所 谓 的 执行 计划 ， 我 的 任务 就 是 带领 大 家 看 懂 这 一 大 坨 东西 里 边 的 每 个 列 都 是 干 

哈 用 的 ， 以 及 在 这 个 执行 计划 的 辅助 下 ， 我 们 应 该 怎样 改进 自己 的 查询 语句 以 使 查询 执行 起 来 更 高 效 。 其 实 除 

了 以 SELECT 开头 的 查询 语句 ， 其 余 的 DELETE 、 INSERT 、 REPLACE 以 及 UPDATE 语句 前 边 都 可 以 加 上 EXPLAIN 

这 个 词 儿 ， 用 来 查看 这 些 语句 的 执行 计划 ， 不 过 我 们 这 里 对 SELECT 语句 更 感 兴趣 ， 所 以 后 边 只 会 以 SELECT 语句 
为 例 来 描述 EXPLAIN 语句 的 用 法 。 为 了 让 大 家 先 有 一 个 感性 的 认识 ， 我 们 把 EXPLAIN 语句 输出 的 各 个 列 的 作用 先 
大 致 罗列 一 下 : 


列 名 描述 
id 在 一 个 大 的 查询 语句 中 每 个 SELECT 关键 字 都 对 应 一 个 唯一 的 id 
select_type 。 ”SELECT 关键 字 对 应 的 那个 查询 的 类 型 
table 表 名 


partitions 匹配 的 分 区 信息 
type 针对 单 表 的 访问 方法 


possible keys ”可 能 用 到 的 索引 


key 实际 上 使 用 的 索引 
key_len 实际 使 用 到 的 索引 长 度 
ref 当 使 用 索引 列 等 值 查询 时 ， 与 索引 列 进行 等 值 匹 配 的 对 象 信息 


TOWS 预 估 的 需要 读 取 的 记录 条 数 
filtered 某 个 表 经 过 搜索 条 件 过 滤 后 剩余 记录 条 数 的 百分比 


Extra 一 些 额 外 的 信息 


需要 注意 的 是 ， 大 家 如 果 看 不 懂 上 边 输 出 列 合 义 ， 那 是 正常 的 , 干 万 不 要 纠结 ~ 。 我 在 这 里 把 它们 都 列 出 来 只 是 
为 了 描述 一 个 轮廓 ， 让 大 家 有 一 个 大 致 的 印象 ， 下 边 会 细 细 道 来 ， 等 会 儿 说 完了 不 信 你 不 会 ~ 为 了 故事 的 顺利 发 
展 ， 我 们 还 是 要 请 出 我 们 前 边 已 经 用 了 n 遍 的 single_table 表 ， 为 了 防止 大 家 忘 了 ， 再 把 它 的 结构 描述 一 遍 : 


CREATE TABLE single table ( 
id INT NOT NULL AUTO_ INCREMENT, 
keyl VARCHAR(100), 
key2 INT， 
key3 VARCHAR(100), 
key partl VARCHAR(100), 
key part2 VARCHAR (100), 
key part3 VARCHAR(100), 
common field VARCHAR (100), 
PRIMARY KEY (id), 
KEY idx keyl (keyl), 
UNIQUE KEY idx key2 (key2), 
KEY idx key3 (key3), 
KEY idx key part(key partl, key part2, key part3) 
) Engine=InnoDB CHARSET=utf8; 





我 们 仍然 假设 有 两 个 和 single_table 表 构 造 一 模 一 样 的 sl 、 s2 表 ， 而 且 这 两 个 表 里 边 儿 有 10000 条 记录 ， 除 
id 列 外 其 余 的 列 都 插入 随机 值 。 为 了 让 大 家 有 比较 好 的 阅读 体验 ， 我 们 下 边 并 不 准备 严格 按照 EXPLAIN 输出 列 的 
顺序 来 介绍 这 些 列 分 别 是 干 嘛 的 ， 大 家 注意 一 下 就 好 了 。 


15.1 执行 计划 输出 中 各 列 详解 


15.1.1 table 


不 论 我 们 的 查询 语句 有 多 复杂 ， 里 边 儿 包含 了 多 少 个 表 ， 到 最 后 也 是 需要 对 每 个 表 进 行 单 表 访 问 的 ， 所 以 设计 
MySQL 的 大 叔 规定 EXPLAIN 语 句 输 出 的 每 条 记录 都 对 应 着 某 个 单 表 的 访问 方法 ， 该 条 记录 的 table 列 代表 着 该 表 
的 表 名 。 所 以 我 们 看 一 条 比较 简单 的 查询 语句 : 


mysql> EXPLAIN SELECT x*¥ FROM sl; 








| id | select type | table | partitions | type | possible keys | key | key len | ref | 上 


ows | filtered | Extra 








| 1 | SIMPLE | sl NULL ALL NULL | NULL | NULL | NULL | 9 
688 100. 00 | NULL 





























1 row in set, 1 warning (0. 00 sec) 


这 个 查询 语句 只 涉及 对 sl 表 的 单 表 查询 ， 所 以 EXPLAIN 输出 中 只 有 一 条 记录 ， 其 中 的 table 列 的 值 是 s! ， 表 
明 这 条 记录 是 用 来 说 明 对 sl 表 的 单 表 访问 方法 的 。 


下 边 我 们 看 一 下 一 个 连接 查询 的 执行 计划 : 


mysql> EXPLAIN SELECT * FROM sl INNER JOIN s2; 








id | select type | table | partitions | type | possible keys | key key len | ref 上 
ows | filtered | Extra 























1 | SIMPLE | sl | NULL A NULL | NULL | NULL | NULL | 9 
688 100. 00 | NULL | 

1 | SIMPLE | s2 | NULL A NULL | NULL | NULL | NULL | 9 
954 100.00 | Using join buffer (Block Nested Loop) | 
































2 rows in set, 1 warning (0.01 sec) 
可 以 看 到 这 个 连接 查询 的 执行 计划 中 有 两 条 记录 ， 条 记录 的 table 列 分 别 是 s1 和 s2 ， 这 两 条 记录 用 来 分 
别 说 明 对 sl 表 和 s2 表 的 访问 方法 是 什么 。 
15.1.2 id 


我 们 知道 我 们 写 的 查询 语句 一 般 都 以 SELECT 关键 字 开 头 ， 比 较 简单 的 查询 语句 里 只 有 一 个 SELECT 关键 字 ， 比 如 
下 边 这 个 查询 语句 : 


SELECT x* FROM sl WHERE keyl = 
稍微 复杂 一 点 的 连接 查询 中 也 只 有 一 个 SELECT 关键 字 ， 比 如 : 


SELECT x*¥ FROM sl INNER JOIN s2 
ON sl.keyl = s2. keyl 
WHERE sl. common field = "a 


但 是 下 边 两 种 情况 下 在 一 条 查询 语句 中 会 出 现 多 个 SELECT 关键 字 : 
。 查询 中 包含 子 查 询 的 情况 
比如 下 边 这 个 查询 语句 中 就 包含 2 个 SELECT 关键 字 : 


SELECT x¥ FROM sl 
WHERE keyl IN (SELECT * FROM s2) ; 


。 查询 中 包含 UNION 语句 的 情况 
比如 下 边 这 个 查询 语句 中 也 包含 2 个 SELECT 关键 字 : 
SELECT * FROM sl UNION SELECT * FROM s2; 


查询 语句 中 每 出 现 一 个 SELECT 关键 字 ， 设 计 MySQL 的 大 叔 就 会 为 它 分 配 一 个 唯一 的 id 值 。 这 个 id 值 就 是 
EXPLAIN 语句 的 第 一 个 列 ， 比 如 下 边 这 个 查询 中 只 有 一 个 SELECT 关键 字 ， 所 以 EXPLAIN 的 结果 中 也 就 只 有 一 
条 id 列 为 1 的 记录 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl = "a ; 








id | select type | table | partitions | type | possible keys | key key len | ref 
rows | filtered | Extra | 








1 | SIMPLE | sl NULL ref | idx keyl 
| 8 100.00 | NULL | 


idx keyl 303 cons 
































1 row in set, 1 warning (0.03 sec) 


对 于 连接 查询 来 说 ， 一 个 SELECT 关键 字 后 边 的 FROM 子 句 中 可 以 跟随 多 个 表 ， 所 以 在 连接 查询 的 执行 计划 中 ， 每 
个 表 都 会 对 应 一 条 记录 ， 但 是 这 些 记录 的 id 值 都 是 相同 的 ， 比 如 : 


mysql> EXPLAIN SELECT x* FROM sl INNER JOIN s2; 








id | select type | table | partitions | type | possible keys | key key len | ref 过 
ows | filtered | Extra 








1 SIMPLE | sl NULL ALL NULL | NULL | NULL | NULL | 9 
688 100.00 | NULL | 

1 SIMPLE ls2 NULL ALL NULL | NULL | NULL | NULL | 9 
954 100.00 | Using join buffer (Block Nested Loop) | 



































2 rows in set, 1 warning (0.01 sec) 


可 以 看 到 ， 上 述 连 接 查询 中 参与 连接 的 sl 和 s2 表 分 别 对 应 一 条 记录 ， 但 是 这 两 条 记录 对 应 的 id 值 都 是 1 。 这 
里 需要 大 家 记 住 的 是 ， 在 连接 查询 的 执行 计划 中 ， 每 个 表 都 会 对 应 一 条 记录 ， 这 些 记录 的 id 列 的 值 是 相同 的 ， 出 
现在 前 边 的 表 表示 驱动 表 ， 出 现在 后 边 的 表 表 示 被 驱动 表 。 所 以 从 上 边 的 EXPLAIN 输出 中 我 们 可 以 看 出 ， 查 询 优 
化 器 准备 让 sl 表 作 为 驱动 表 ， 让 s2 表 作 为 被 驱动 表 来 执行 查询 。 


对 于 包含 子 查询 的 查询 语句 来 说 ， 就 可 能 涉及 多 个 SELECT 关键 字 ， 所 以 在 包含 子 查询 的 查询 语句 的 执行 计划 
中 ， 每 个 SELECT 关键 字 都 会 对 应 一 个 唯一 的 id 值 ， 比 如 这 样 : 


mysql> EXPLAIN SELECT x FROM sl WHERE keyl IN (SELECT keyl FROM s2) OR key3 = "a 








id | select type | table | partitions | type possible keys | key key len | ref 
rows | filtered | Extra | 








1 | PRIMARY | sl NULL ALL idx key3 | NULL NULL NUL 
L | 9688 100.00 | Using where 
2 | SUBQUERY | s2 NULL index | idx keyl | idx keyl | 303 NUL 


L | 9954 100.00 | Using index 



































2 rows in set, 1 warning (0.02 sec) 


从 输出 结果 中 我 们 可 以 看 到 ， sl 表 在 外 层 查 询 中 ， 外 层 查询 有 一 个 独立 的 SELECT 关键 字 ， 所 以 第 一 条 记录 的 
id 值 就 是 1 ， s2 表 在 子 查询 中 ， 子 查询 有 一 个 独立 的 SELECT 关键 字 ， 所 以 第 二 条 记录 的 id 值 就 是 2 。 


但 是 这 里 大 家 需要 特别 注意 ， 查 询 优化 器 可 能 对 涉及 子 查询 的 查询 语句 进行 重 写 ， 从 而 转换 为 连接 查询 。 所 以 如 
果 我 们 想 知道 查询 优化 器 对 某 个 包含 子 查询 的 语句 是 否 进行 了 重 写 ， 直 接 查 看 执行 计划 就 好 了 ， 比 如 说 : 


mysql> EXPLAIN SELECT x FROM sl WHERE keyl IN (SELECT key3 FROM s2 WHERE common _ field = 


a’ ): 








id | select type | table | partitions | type | possible keys | key key len | ref 


rows | filtered | Extra 








1 | SIMPLE | s2 NULL ALL idx key3 | NULL NULL NULL 





9954 | 10.00 | Using where; Start temporary | 
1 SIMPLE | sl NULL ref idx keyl | idx keyl 303 Xlao 




















haizi. s2. key3 | 1 | 100.00 | End temporary | 








2 rows in set, 1 warning (0.00 sec) 


可 以 看 到 ， 虽 然 我 们 的 查询 语句 是 一 个 子 查询 ， 但 是 执行 计划 中 sl 和 s2 表 对 应 的 记录 的 id 值 全 部 是 1 ， 这 就 
表明 了 查询 优化 器 将 子 查询 转换 为 了 连接 查询 。 


对 于 包含 UNION 子 句 的 查询 语句 来 说 ， 每 个 SELECT 关键 字 对 应 一 个 id 值 也 是 没 错 的 ， 不 过 还 是 有 点 儿 特别 的 
东西 ， 比 方 说 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT x* FROM sl UNION SELECT x* FROM S2 ; 






































| id | select type | table partitions | type | possible keys | key key len | re 
f | rows | filtered | Extra 

1 | PRIMARY | sl NULL | ALL | NULL NULL | NULL NU 
LL | 9688 | 100. 00 | NULL 

2 | UNION | s2 NULL | ALL | NULL NULL | NULL NU 
LL | 9954 | 100. 00 | NULL 

NULL | UNION RESULT | 《unionl, 2> | NULL | ALL | NULL | NULL | NULL 
NULL | NULL | NULL | Using temporary | 











3 rows in set, 1 warning (0.00 sec) 


这 个 语句 的 执行 计划 的 第 三 条 记录 是 个 什么 鬼 ? 为 毛 id 值 是 NULL， 而且 table 列 长 的 也 怪 怪 的 ? 大 家 别 志 了 
UNION 子 句 是 干 嘛 用 的 ， 它 会 把 多 个 查询 的 结果 集合 并 起 来 并 对 结果 集中 的 记录 进行 去 重 ， 怎 么 去 重 呢 ? MySQL 
使 用 的 是 内 部 的 临时 表 。 正 如 上 边 的 查询 计划 中 所 示 ， UNION 子 句 是 为 了 把 id 为 1 的 查询 和 id 为 2 的 查询 的 
结果 集合 并 起 来 并 去 重 ， 所 以 在 内 部 创建 了 一 个 名 为 <union1，2> 的 临时 表 (就 是 执行 计划 第 三 条 记录 的 table 
列 的 名 称 ) ， id 为 NULL 表明 这 个 临时 表 是 为 了 合并 两 个 查询 的 结果 集 而 创建 的 。 


跟 UNION 对 比 起 来 ， UNION ALL 就 不 需要 为 最 终 的 结果 集 进 行 去 重 ， 它 只 是 单纯 的 把 多 个 查询 的 结果 集中 的 记录 
合并 成 一 个 并 返回 给 用 户 ， 所 以 也 就 不 需要 使 用 临时 表 。 所 以 在 包含 UNION ALL 子 句 的 查询 的 执行 计划 中 ， 就 没 
有 那个 id 为 NULL 的 记录 ， 如 下 所 示 : 


mysql> EXPLAIN 


SELECT x* FROM sl UNION ALL SELECT x*¥ FROM s2; 















































id | select type | table | partitions | type | possible keys | key key len | ref 上 
ows | filtered | Extra 

1 | PRIMARY | sl | NULL A NULL | NULL | NULL | NULL | 9 
688 100. 00 | NULL 

2 | UNION | s2 | NULL A NULL | NULL | NULL | NULL | 9 
954 100. 00 | NULL 

















2 rows in set, 


1 warning (0.01 sec) 


15.1.3 select type 


通过 上 边 的 内 容 我 们 知道 ， 


一 条 大 的 查询 语句 里 边 可 以 包含 若干 个 SELECT 关键 字 ， 每 个 SELECT 关键 字 代表 着 一 


个 小 的 查询 语句 ， 而 每 个 SELECT 关键 字 的 FROM 子 句 中 都 可 以 包含 若干 张 表 (这 些 表 用 来 做 连接 查询 ) ， 每 一 张 
表 都 对 应 着 执行 计划 输出 中 的 一 条 记录 ， 对 于 在 同一 个 SELECT 关键 字 中 的 表 来 说 ， 它 们 的 id 值 是 相同 的 。 


设计 MySQL 的 大 叔 为 每 一 个 SELECT 关键 字 代表 的 小 查询 都 定义 了 一 个 称 之 为 select_type 的 属性 ， 意 思 是 我 们 
只 要 知道 了 某 个 小 查询 的 select_type 属性 ， 就 知道 了 这 个 小 查询 在 整个 大 查询 中 扮演 了 一 个 什么 角色 ， 口 说 无 
凭 ， 我 们 还 是 先 来 见识 见识 这 个 select_type 都 能 取 哪 些 值 (为 了 精确 起 见 ， 我 们 直接 使 用 文档 中 的 英文 做 简要 
摘 述 ， 随 后 会 进行 详细 解释 的 ) : 


名 称 
SIMPLE 
PRIMARY 
UNION 


UNION RESULT 





SUBQUERY 


DEPENDENT 
SUBQUERY 





DEPENDENT UNION 
DERIVED 
MATERIALIZED 


UNCACHEABLE 
SUBQUERY 


UNCACHEABLE UNION 





描述 

Simple SELECT (not using UNION or subqueries) 
Outermost SELECT 

Second or later SELECT statement in a UNION 
Result of a UNION 


First SELECT in subquery 
First SELECT in subquery, dependent on outer query 


Second or later SELECT statement in a UNION, dependent on outer query 
Derived table 
Materialized subquery 


A subquery for which the result cannot be cached and must be re-evaluated for each row of the outer 
query 


The second or later select in a UNION that belongs to an uncacheable subquery (see UNCACHEABLE 
SUBQUERY) 


英文 描述 太 简 单 ， 不 知道 说 了 哈 ? 来 详细 旺旺 里 边 儿 的 每 个 值 都 是 干 喻 吃 的 : 


。 SIMPLE 


查询 语句 中 不 包含 UNION 或 者 子 查询 的 查询 都 算 作 是 SIMPLE 类 型 ， 比 方 说 下 边 这 个 单 表 查询 的 
select type 的 值 就 是 SIMPLE : 


mysql> EXPLAIN SELECT x*¥ FROM sl; 






























































id | select type | table | partitions | type | possible keys | key key len | re 
工 rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL NULL NULL | NULL NU 
LL | 9688 100. 00 | NULL 
1 row in set, 1 warning (0. 00 sec) 
当然 ， 连 接 查询 也 算是 SIMPLE 类 型 ， 比 如 : 
mysql> EXPLAIN SELECT x* FROM sl INNER JOIN s2; 
id | select type | table | partitions | type | possible keys | key key len | re 
f rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL NULL NULL | NULL NU 
LL | 9688 100. 00 | NULL 
1 | SIMPLE s2 NULL | ALL NULL NULL | NULL NU 
LL | 9954 100.00 | Using join buffer (Block Nested Loop) 






































2 rows in set, 1 warning (0.01 sec) 


PRIMARY 


对 于 包含 UNION 、 


的 select type 值 就 是 PRIMARY ， 比 方 说 : 


mysql> EXPLAIN SELECT x* FROM sl UNION SELECT x* FROM s2; 


UNION ALL 或 者 子 查 询 的 大 查询 来 说 ， 它 是 由 几 个 小 查询 组 成 的 ， 其 中 最 左边 的 那个 查询 













































































id | select type tab] partitions | type | possible keys | key key le 
n | ref rows | filtered | Extra 

1 | PRIMARY sl NU ALL | NULL NULL | NU 
| NU 9688 | 100.00 | NULL 

2 | UNION s2 NU ALL | NULL NULL | NUI 
| NU 9954 | 100.00 | NULL 

ULL | UNION RESULT | “unionl, 2> | NULL | ALL | NULL ULL | NULL 
| NU NULL | NULL | Using temporary | 























3 rows in set, 1 warning (0. 00 sec) 


从 结果 中 可 以 看 到 ， 最 左边 的 小 查询 SELECT * FROM sl 对 应 的 是 执行 计划 中 的 第 一 条 记录 ， 它 的 
select type 值 就 是 PRIMARY 。 


。 UNION 


对 于 包含 UNION 或 者 UNION ALL 的 大 查询 来 说 ， 它 是 由 几 个 小 查询 组 成 的 ， 其 中 除了 最 左边 的 那个 小 查询 以 
外 ， 其 余 的 小 查询 的 select_type 值 就 是 UNION ， 可 以 对 比 上 一 个 例子 的 效果 ， 这 就 不 多 举例 子 了 。 
。 UNION RESULT 


MySQL 选择 使 用 临时 表 来 完成 UNION 查询 的 去 重工 作 ， 针 对 该 临时 表 的 查询 的 select_type 就 是 UNION 
RESULT ， 例 子 上 边 有 ， 就 不 乾 述 了 。 
。 SUBQUERY 


如 果 包 含 子 查询 的 查询 语句 不 能 够 转 为 对 应 的 semi-join 的 形式 ， 并 且 该 子 查询 是 不 相关 子 查询 ， 并 且 查 询 
优化 器 决定 采用 将 该 子 查询 物化 的 方案 来 执行 该 子 查询 时 ， 该 子 查 询 的 第 一 个 SELECT 关键 字 代表 的 那个 查 
询 的 select_type 就 是 SUBQUERY ， 比 如 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl IN (SELECT keyl FROM s2) OR key3 = a ; 


























id | select type | table | partitions | type | possible keys | key | key len 
| ref | rows | filtered | Extra 

1 | PRIMARY sl NULL | ALL | idx key3 NULL | NULL 
| NULL | 9688 | 100.00 | Using where | 

2 | SUBQUERY s2 NULL | index | idx keyl idx keyl | 303 
| NULL | 9954 | 100.00 | Using index | 








2 rows in set, 1 warning (0.00 sec) 


可 以 看 到 ， 外 层 查 询 的 select_type 就 是 PRIMARY ， 子 查询 的 select_type 就 是 SUBQUERY 。 需 要 大 家 注意 
的 是 ， 由 于 select_type 为 SUBQUERY 的 子 查 询 由 于 会 被 物化 ， 所 以 只 需要 执行 一 遍 。 
。 DEPENDENT SUBQUERY 


如 果 包 含 子 查询 的 查询 语句 不 能 够 转 为 对 应 的 semi-join 的 形式 ， 并 且 该 子 查询 是 相关 子 查询 ， 则 该 子 查询 
的 第 一 个 SELECT 关键 字 代表 的 那个 查询 的 select_type 就 是 DEPENDENT SUBQUERY ， 比 如 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT x FROM sl WHERE keyl IN (SELECT keyl FROM s2 WHERE sl.key2 = s 
2.key2) OR key3 = "a 














id | select type table | partitions | type | possible keys | key 
| key len | ref | rows | filtered | Extra 

1 | PRIMARY sl NULL | ALL idx key3 | NULL 
| NULL | NULL | 9688 | 100.00 | Using where | 

2 | DEPENDENT SUBQUERY | s2 NULL | ref idx key2, idx keyl | idx key2 
| 5 | xiaohaizi. sl. key2 | 1 | 10.00 | Using where | 




















2 rows in set, 2 warnings (0. 00 sec) 


需要 大 家 注意 的 是 ，select_type 为 DEPENDENT SUBQUERY 的 查询 可 能 会 被 执行 多 次 。 
。 DEPENDENT UNION 


在 包含 UNION 或 者 UNION ALL 的 大 查询 中 ， 如 果 各 个 小 查询 都 依赖 于 外 层 查询 的 话 ， 那 除了 最 左边 的 那个 小 


查询 之 外 ， 其 余 的 小 查询 的 select_type 的 值 就 是 DEPENDENT UNION 。 说 的 有 些 绕 哈 ， 比 方 说 下 边 这 个 查 












































询 : 
ysql> EXPLAIN SELECT x FROM sl WHERE keyl IN (SELECT keyl FROM s2 WHERE keyl = "a 
UNION SELECT keyl FROM sl WHERE keyl = pb ); 
id | select type table | partitions | type | possible keys | key 
| key len | ref | rows | filtered | Extra 
1 | PRIMARY sl | NULL ALL NULL | NULL 
| NULL | NULL | 9688 | 100.00 | Using where 
2 | DEPENDENT SUBQUERY | s2 | NULL ref idx keyl | idx key 
1 | 303 | const | 12 | 100.00 | Using where; Using index | 
3 | DEPENDENT UNION sl | NULL ref idx keyl | idx key 
1 | 303 | const | 8 | 100.00 | Using where; Using index | 
NULL | UNION RESULT | “union2, 3> | NULL | ALL | NULL | NULL 
| NULL | NULL NULL | NULL | Using temporary 





4 rows in set, 1 warning (0. 03 sec) 


这 个 查询 比较 复杂 啊 ， 大 查询 里 包含 了 一 个 子 查询 ， 子 查询 里 又 是 由 UNION 连 起 来 的 两 个 小 查询 。 从 执行 计 


划 中 可 以 看 出 来 ， 


SELECT keyl FROM s2 WHERE keyl = "a'” 这 个 小 查询 由 于 是 子 查询 中 第 一 个 查询 ， 所 以 


它 的 select type 是 DEPENDENT SUBQUERY ,而 SELECT keyl FROM sl WHERE keyl = b” 这 个 查询 的 
select type 就 是 DEPENDENT UNION 。 


DERIVED 


对 于 采用 物化 的 方式 执行 的 包含 派生 表 的 查询 ， 该 派生 表 对 应 的 子 查询 的 select_type 就 是 DERIVED ， 比 方 


说 下 边 这 个 查询 : 


erived sl where c > 1; 


mysql> EXPLAIN SELECT x* FROM (SELECT keyl, count(*) as C FROM sl GROUP BY keyl) AS d 















































id | select type | table | partitions | type possible keys | key ke 
y len | ref rows | filtered | Extra 
1 | PRIMARY <derived2> | NULL ALL NULL NULL NU 
LL | NULL | 9688 33.33 | Using where 
2 | DERIVED sl | NULL index | idx keyl idx keyl 30 
3 | NULL | 9688 100. 00 | Using index 








2 rows in set, 1 warning (0. 00 sec) 


从 执行 计划 中 可 以 看 出 ， 


子 查询 是 以 物化 的 方式 执行 的 。 


“derived2> ， 表 示 该 查询 是 针对 将 派生 表 物 化 之 后 的 表 进 行 查询 的 。 


id 为 2 的 记录 就 代表 子 查询 的 执行 方式 ， 它 的 select_type 是 DERIVED ， 说 明 该 
id 为 1 的 记录 代表 外 层 查询 ， 大 家 注意 看 它 的 table 列 显示 的 是 





小 由 士 : 
如 果 派 生 表 可 以 通过 和 外 层 查询 合并 的 方式 执行 的 话 ， 执 行 计划 又 是 另 一 番 景 象 ， 大 家 可 以 试 试 


会 一- 
只 















































。 MATERIALIZED 


当 查 询 优化 器 在 执行 包含 子 查询 的 语句 时 ， 选 择 将 子 查询 物化 之 后 与 外 层 查询 进行 连接 查询 时 ， 该 子 查询 对 
应 的 select_type 属性 就 是 MATERIALIZED ， 比 如 下 边 这 个 查询 : 






































ysql> EXPLAIN SELECT x FROM sl WHERE keyl IN (SELECT keyl FROM s2) ; 
id | select type table partitions | type possible keys | key 
| key len | ref | rows | filtered | Extra 
1 | SIMPLE sl NULL ALL idx keyl NULL 
| NULL NULL | 9688 | 100.00 | Using where | 
1 | SIMPLE <subquery2> | NULL eq ref | auto key> <auto key> 
| 303 xiaohaizi. sl. keyl | 1 | 100.00 | NULL | 
2 | MATERIALIZED | s2 NULL index idx keyl idx keyl 
| 303 NULL | 9954 | 100.00 | Using index | 











3 rows in set, 1 warning (0.01 sec) 


执行 计划 的 第 三 条 记录 的 id 值 为 2 ， 说 明 该 条 记录 对 应 的 是 一 个 单 表 查 询 ， 从 它 的 select_type 值 为 


MATERIALIZED 可 以 看 出 ， 查 询 优化 器 是 要 把 子 查询 先 转换 成 物化 表 。 然 后 看 执行 计划 的 前 两 条 记录 的 id 什 
都 为 1 ， 说 明 这 两 条 记录 对 应 的 表 进 行 连接 查询 ， 需 要 注意 的 是 第 二 条 记录 的 table 列 的 值 是 
<subquery2》， 说 明 该 表 其 实 就 是 id 为 2 对 应 的 子 查询 执行 之 后 产生 的 物化 表 ， 然 后 将 s1 和 该 物化 表 进 
行 连接 查询 。 


UNCACHEABLE SUBQUERY 


不 常用 ， 就 不 多 路 明 了 。 
UNCACHEABLE UNION 


不 常用 ， 就 不 多 路 轨 了。 


15.1.4 partitions 

由 于 我 们 压根 儿 就 没 噶 胃 过 分 区 是 个 啥 ， 所 以 这 个 输出 列 我 们 也 就 不 说 了 哈 ， 一 般 情况 下 我 们 的 查询 语句 的 执行 
计划 的 partitions 列 的 值 都 是 NULL 。 

15.1.5 type 


我 们 前 边 说 过 执行 计划 的 一 条 记录 就 代表 着 MySQL 对 某 个 表 的 执行 查询 时 的 访问 方法 ， 其 中 的 type 列 就 表明 了 
这 个 访问 方法 是 个 哈 ， 比 方 说 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl = "a ; 








id | select type | table | partitions | type | possible keys | key key len | ref 
rows | filtered | Extra | 








1 | SIMPLE | sl NULL ref idx keyl | idx keyl | 303 cons 
蕊 | 8 100.00 | NULL | 
































1 row in set, 1 warning (0.04 sec) 


可 以 看 到 type 列 的 值 是 ref ， 表 明 MySQL 即将 使 用 ref 访问 方法 来 执行 对 sl 表 的 查询 。 但 是 我 们 之 前 只 踪 轨 
过 对 使 用 InnoDB 存储 引擎 的 表 进 行 单 表 访问 的 一 些 访问 方法 ， 完 整 的 访问 方法 如 下 : system ， const ， 
eq ref , ref , fulltext , ref or null , index merge , unique subquery , index subquery, 


range ， index ， ALL 。 当 然 我 们 还 要 详细 啼 归 一 下 哈 : 
。 system 


当 表 中 只 有 一 条 记录 并 且 该 表 使 用 的 存储 引擎 的 统计 数据 是 精确 的 ， 比 如 MylSAM、Memory， 那 么 对 该 表 的 
访问 方法 就 是 system 。 比 方 说 我 们 新 建 一 个 MyISAM 表 ， 并 为 其 插入 一 条 记录 : 


mysql> CREATE TABLE t(i int) Engine=MyISAM; 
Query OK, 0 rows affected (0. 05 sec) 


mysql> INSERT INTO t VALUES (1) ; 
Query OK, 1 row affected (0.01 sec) 


然后 我 们 看 一 下 查询 这 个 表 的 执行 计划 : 


mysql> EXPLAIN SELECT FROM t; 














id | select type | table | partitions | type | possible keys | key key_ len 
ref | rows | filtered | Extra | 
1 | SIMPLE t NULL | system | NULL | NULL | NULL 
NULL | 1 | 100.00 | NULL | 























1 row in set, 1 warning (0. 00 sec) 


可 以 看 到 type 列 的 值 就 是 system 了 。 





小 贴 士 : 
你 可 以 把 表 改 成 使 用 InnoDB 存 储 引擎 ， 试 试看 执行 计划 的 type 列 是 什么 。 


























e const 


这 个 我 们 前 边 踪 胃 过， 就 是 当 我 们 根据 主键 或 者 唯一 二 级 索引 列 与 常数 进行 等 值 匹配 时 ， 对 单 表 的 访问 方法 
就 是 const ， 比 如 : 


mysql> EXPLAIN SELECT x* FROM sl WHERE id = 5; 














id | select type | table | partitions | type | possible keys | key | key len 
| ref | rows | filtered | Extra | 
1 | SIMPLE sl NULL | const | PRIMARY PRIMARY | 4 
| const | 1| 100.00 | NULL | 

















1 row in set, 1 warning (0.01 sec) 


。 eq ref 





在 连接 查询 时 ， 如 果 被 驱动 表 是 通过 主键 或 者 唯一 二 级 索引 列 等 值 匹 配 的 方式 进行 访问 的 (如果 该 主键 或 者 
唯一 二 级 索引 是 联合 索引 的 话 ， 所 有 的 索引 列 都 必须 进行 等 值 比较 ) ， 则 对 该 被 驱动 表 的 访问 方法 就 是 


eq_ref ， 比 方 说 : 


mysql> EXPLAIN SELECT x* FROM sl INNER JOIN s2 ON sl.id = S2. id; 























id | select type | table | partitions | type | possible keys | key | key len 
| ref | rows | filtered | Extra | 
1 | SIMPLE sl NULL | ALL | PRIMARY | NULL | NULL 
| NULL | 9688 | 100.00 | NULL | 
1 | SIMPLE s2 NULL | eq ref | PRIMARY | PRIMARY | 4 
| xiaohaizi. sl.id | 1 | 100.00 | NULL | 








2 rows in set, 1 warning (0.01 sec) 


从 执行 计划 的 结果 中 可 以 看 出 ， 


MySQL 打算 将 sl 作为 驱动 表 ， 


s2 作为 被 驱动 表 ， 重 点 关注 s2 的 访问 方法 


是 eq_ref ， 表 了 明 在 访问 s2 表 的 时 候 可 以 通过 主键 的 等 值 匹 配 来 进行 访问 。 


。 ref 


当 通 过 普通 的 二 级 索引 列 与 常量 进行 等 值 匹 配 时 来 查询 某 个 表 ， 那 么 对 该 表 的 访问 方法 就 可 能 是 ref ， 最 开 


始 举 过 例子 了 ， 就 不 重复 举例 了 。 
。 fulltext 


全 文 索 引 ， 我 们 没有 细 讲 过 ， 跳 过 ~ 


。 ref or null 


当 对 普通 二 级 索引 进行 等 值 匹配 查询 ， 该 索引 列 的 值 也 可 以 是 NULL 值 时 ， 那 么 对 该 表 的 访问 方法 就 可 能 是 


ref or null ， 比 如 说 : 


mysql> 


EXPLAIN SELECT x FROM sl WHERE keyl = "a” OR keyl IS NULL; 









































id | select type | table | partitions | type possible keys | key 
ey len | ref | rows | filtered | Extra 

1 | SIMPLE sl NULL | ref or null idx keyl idx keyl 
03 | const | 9 100.00 | Using index condition 





1 row in set, 1 warning (0.01 sec) 
。 index merge 


一 般 情 况 下 对 于 某 个 表 的 查询 只 能 使 用 到 一 个 索引 ， 但 我 们 踪 呆 单 表 访问 方法 时 特意 强调 了 在 某 些 场 景 下 可 
以 使 用 Intersection 、 Union 、 Sort-Union 这 三 种 索引 合并 的 方式 来 执行 查询 ， 忘 掉 的 回去 补 一 下 哈 ， 
我 们 看 一 下 执行 计划 中 是 怎么 体现 MySQL 使 用 索引 合并 的 方式 来 对 某 个 表 执 行 查询 的 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl = ’a OR key3 = al ;| 








| id | select type | table | partitions | type | possible keys | key 


| key len | ref | rows | filtered | Extra 














ee + 

| 1 | SIMPLE | sl | NULL | index merge | idx keyl, idx key3 | idx key 
1,idx key3 | 303,303 | NULL | 14 | 100.00 | Using union(idx keyl, idx key3); Using 
where | 
一 一 一 一 一 + 


1 row in set, 1 warning (0.01 sec) 


从 执行 计划 的 type 列 的 值 是 index_merge 就 可 以 看 出 ， 
查询 。 


。 Unique subquery 


MySQL 打算 使 用 索引 合并 的 方式 来 执行 对 sl 表 的 


类 似 于 两 表 连 接 中 被 驱动 表 的 eq_ref 访问 方法 ， unique_subquery 是 针对 在 一 些 包含 IN 子 查询 的 查询 语 
句 中 ， 如 果 查 询 优化 器 决定 将 IN 子 查询 转换 为 EXISTS 子 查询 ， 而 且 子 查询 可 以 使 用 到 主键 进行 等 值 匹 配 的 
话 ， 那 么 该 子 查询 执行 计划 的 type 列 的 值 就 是 unique_subquery ， 比 如 下 边 的 这 个 查询 语句 : 


mysql> EXPLAIN SELECT x FROM sl WHERE key2 IN (SELECT id FROM s2 where sl.keyl = s2 
keyl) OR key3 = 


























id | select type table | partitions | type | possible keys 
| key | key len | ref rows | filtered | Extra 
1 | PRIMARY sl NULL ALL | idx key3 
| NULL | NULL | NULL | 9688 | 100.00 | Using where | 
2 | DEPENDENT SUBQUERY | s2 NULL unique subquery | PRIMARY, idx keyl 
| PRIMARY | 4 | func 1 | 10.00 | Using where | 








2 rows in set, 2 warnings (0. 00 sec) 


可 以 看 到 执行 计划 的 第 二 条 记录 的 type 值 就 是 unique_subquery ， 说 明 在 执行 子 查询 时 会 使 用 到 id 列 的 
索引 。 


。 index subquery 


index_subquery 与 unique_subquery 类 似 ， 只 不 过 访问 子 查询 中 的 表 时 使 用 的 是 普通 的 索引 ， 比 如 这 样 : 





























mysql> EXPLAIN SELECT x* FROM sl WHERE common field IN (SELECT key3 FROM s2 where sl. 
keyl = s2.keyl) OR key3 = as ; 

id | select type table | partitions | type possible keys 
| key | key len | ref | rows | filtered | Extra 

1 | PRIMARY sl NULL ALL idx key3 
| NULL | NULL | NULL | 9688 100.00 | Using where | 

2 | DEPENDENT SUBQUERY | s2 NULL index subquery | idx keyl, idx key3 
| idx key3 | 303 | func | 1 10.00 | Using where 








2 rows in set, 2 warnings (0.01 sec) 


。 range 


如 果 使 用 索引 获取 某 些 范围 区 间 的 记录 ， 那 么 就 可 能 使 用 到 range 访问 方法 ， 比 如 下 边 的 这 个 查询 : 





mysql> EXPLAIN SELECT * FROM sl WHERE keyl IN (a, b,c); 

















id | select type | table | partitions | type | possible keys | key | key len 
| ref | rows | filtered | Extra 
1 | SIMPLE sl NULL | range | idx keyl idx keyl | 303 
| NULL | 27 | 100.00 | Using index condition | 

















1 row in set, 1 warning (0.01 sec) 


或 者 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl > a AND keyl < b ; 








partitions | type | possible keys 


key 


key len 




















| range | idx keyl 





idx keyl | 303 








id | select type | table 
| ref rows | filtered | Extra 
1 SIMPLE sl NULL 
| NULL 294 | 100.00 | Using index condition | 
1 row in set, 1 warning (0. 00 sec) 


index 


当 我 们 可 以 使 用 索引 覆盖 ， 但 需要 扫描 全 部 的 索引 记录 时 ， 该 表 的 访问 方法 就 是 index ， 比 如 这 样 : 


mysql> EXPLAIN SELECT key part2 FROM sl WHERE key part3 = a ; 















































id | select type | table | partitions | type | possible keys | key key 
_len | ref rows | filtered | Extra 
1 | SIMPLE sl NULL | index | NULL idx key part | 909 
| NULL | 9688 | 10.00 | Using where; Using index | 





1 row in set, 1 warning (0. 00 sec) 


上 述 查询 中 的 搜索 列表 中 只 有 key_part2 一 个 列 ， 而 且 搜 索 条 件 中 也 只 有 key_part3 一 个 列 ， 这 两 个 列 又 恰 
好 包含 在 idx_key_part 这 个 索引 中 ， 可 是 搜索 条 件 key_part3 不 能 直接 使 用 该 索引 进行 ref 或 者 range 方 
式 的 访问 ， 只 能 扫描 整个 idx_key_part 索引 的 记录 ， 所 以 查询 计划 的 type 列 的 值 就 是 index 。 


小 贴 士 : 


























再 一 次 强调 ， 对 了 


使 用 InnoDB 存 储 引擎 的 表 来 说 ， 二 级 索引 的 记录 只 包含 索引 列 和 主键 列 的 值 ， 



































ALL 


也 就 是 扫描 聚 秘 索引 的 代价 更 低 一 些 。 


最 熟 亚 的 全 表 扫 描 ， 就 不 多 路 另 了 ， 直 接 看 例子 : 








而 聚 镑 索引 中 包含 用 户 定义 的 全 部 列 以 及 一 些 隐 藏 列 ， 所 以 扫描 二 级 索引 的 代价 比 直 接 


FE 表 扫 田 ， 














mysql> EXPLAIN SELECT x*¥ FROM sl; 








id | select type | table | partitions | type | possible keys | key key len | re 
f rows | filtered | Extra 








1 | SIMPLE sl NULL | ALL NULL NULL | NULL NU 
LL | 9688 100. 00 | NULL 



































1 row in set, 1 warning (0. 00 sec) 


一 般 来 说 ， 这 些 访 问 方法 按照 我 们 介绍 它们 的 顺序 性 能 依次 变 差 。 其 中 除了 Al11 这 个 访问 方法 外 ， 其 余 的 访问 方 
法 都 能 用 到 索引 ， 除 了 index_merge 访问 方法 外 ， 其 余 的 访问 方法 都 最 多 只 能 用 到 一 个 索引 。 


15.1.6 possible_keys 和 key 


在 EXPLAIN 语句 输出 的 执行 计划 中 ， possible_keys 列表 示 在 某 个 查询 语句 中 ， 对 某 个 表 执 行 单 表 查 询 时 可 能 
到 的 索引 有 哪些 ， key 列表 示 实 际 用 到 的 索引 有 哪些 ， 比 方 说 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT x* FROM sl WHERE keyl > ’z AND key3 = "a 














id | select type | table | partitions | type | possible keys key key_ len 
ref | rows | filtered | Extra 

1 | SIMPLE | sl NULL ref idx keyl, idx key3 idx key3 | 303 
const | 6 | 2.75 | Using where | 
































1 row in set, 1 warning (0. 01 sec) 


上 述 执 行 计划 的 possible_keys 列 的 值 是 idx_keyl, idx_key3 ， 表 示 该 查询 可 能 使 用 到 idx_keyl, idx_key3 两 
个 索引 ， 然 后 key 列 的 值 是 idx_key3 ， 表 示 经 过 查询 优化 器 计算 使 用 不 同 索引 的 成 本 后 ， 最 后 决定 使 用 
idx_key3 来 执行 查询 比较 划算 。 


不 过 有 一 点 比较 特别 ， 就 是 在 使 用 index 访问 方法 来 查询 某 个 表 时 ， possible keys 列 是 空 的 ， 而 key 列 展 示 
的 是 实际 使 用 到 的 索引 ， 比 如 这 样 : 


mysql> EXPLAIN SELECT key part2 FROM sl WHERE key part3 = "a 



































id | select type | table | partitions | type possible keys | key key len | 
ref rows | filtered | Extra 

1 | SIMPLE | sl NULL index | NULL | idx key part | 909 | 
NULL | 9688 | 10.00 | Using where; Using index | 





1 row in set, 1 warning (0. 00 sec) 


另外 需要 注意 的 一 点 是 ，possible_keys 列 中 的 值 并 不 是 越 多 越 好 ， 可 能 使 用 的 索引 越 多 ， 查 询 优化 器 计算 查询 成 
本 时 就 得 花费 更 长 时 间 ， 所 以 如 果 可 以 的 话 ， 尽 量 删 除 那 些 用 不 到 的 索引 。 


15.1.7 key_len 
key_len 列表 示 当 优化 器 决定 使 用 某 个 索引 执行 查询 时 ， 该 索引 记录 的 最 大 长 度 ， 它 是 由 这 三 个 部 分 构成 的 : 


对 于 使 用 固定 长 度 类 型 的 索引 列 来 说 ， 它 实际 占用 的 存储 空间 的 最 大 长 度 就 是 该 固定 值 ， 对 于 指定 字符 集 的 
变 长 类 型 的 索引 列 来 说 ， 比 如 某 个 索引 列 的 类 型 是 VARCHAR (100) ， 使 用 的 字符 集 是 utf8 ， 那 么 该 列 实际 占 
用 的 最 大 存储 空间 就 是 100 X 3 = 300 个 字 节 。 

如 果 该 索引 列 可 以 存储 NULL 值 ， 则 key_len 比 不 可 以 存储 NULL 值 时 多 1 个 字 节 。 

对 于 变 长 字段 来 说 ， 都 会 有 2 个 字 节 的 空间 来 存储 该 变 长 列 的 实际 长 度 。 


比如 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT x*¥ FROM sl WHERE id = 5; 








| id | select type | table | partitions | type possible keys | key key len | ref 


| rows | filtered | Extra | 








| 1 | SIMPLE | sl NULL const | PRIMARY | PRIMARY | 4 cons 
t| 1 100. 00 | NULL 





























1 row in set, 1 warning (0.01 sec) 


由 于 id 列 的 类 型 是 INT ， 并 且 不 可 以 存储 NULL 值 ， 所 以 在 使 用 该 列 的 索引 时 key_len 大 小 就 是 4 。 当 索引 列 
可 以 存储 NULL 值 时 ， 比 如 : 


mysql> EXPLAIN SELECT x*¥ FROM sl WHERE key2 = 5; 








id | select type | table | partitions | type possible keys | key key len | ref 


rows | filtered | Extra | 











SIMPLE | sl NULL const | idx key2 | idx key2 | 5 con 
1 | 100.00 | NULL | 


= 




















st 











1 row in set, 1 warning (0. 00 sec) 
可 以 看 到 key_len 列 就 变 成 了 5 ， 比 使 用 id 列 的 索引 时 多 了 1 。 
对 于 可 变 长 度 的 索引 列 来 说， 比如 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT x* FROM sl WHERE keyl = "a ; 

















id | select type | table | partitions | type | possible keys | key key len | ref 
rows | filtered | Extra | 
1 | SIMPLE | sl NULL ref idx keyl | idx keyl | 303 cons 
| 8 100.00 | NULL | 





























1 row in set, 1 warning (0. 00 sec) 


由 于 keyl 列 的 类 型 是 VARCHAR (100) ， 所 以 该 列 实际 最 多 占用 的 存储 空间 就 是 300 字 节 ， 又 因为 该 列 允 许 存 储 
NULL 值 ， 所 以 key_len 需要 加 1 ， 又 因为 该 列 是 可 变 长 度 列 ， 所 以 key_len 需要 加 2 ， 所 以 最 后 ken_len 的 
值 就 是 303 。 


有 的 同学 可 能 有 疑问 : 你 在 前 边 路 明 InnoDB 行 格式 的 时 候 不 是 说 ， 存 储 变 长 字段 的 实际 长 度 不 是 可 能 占用 1 个 字 
节 或 者 2 个 字 节 么 ? 为 什么 现在 不 管 三 七 二 十 一 都 用 了 2 个 字 节 ? 这 里 需要 强调 的 一 点 是 ,执行 计划 的 生成 是 在 
MySQL server 层 中 的 功能 ， 并 不 是 针对 具体 某 个 存储 引擎 的 功能 ， 设 计 MySQL 的 大 叔 在 执行 计划 中 输出 
key_len 列 主 要 是 为 了 让 我 们 区 分 某 个 使 用 联合 索引 的 查询 具体 用 了 几 个 索引 列 ， 而 不 是 为 了 准确 的 说 明 针 对 某 
个 具体 存储 引擎 存储 变 长 字段 的 实际 长 度 占用 的 空间 到 底 是 占用 1 个 字 节 还 是 2 个 字 节 。 比 方 说 下 边 这 个 使 用 到 联 
合 索引 idx_key_part 的 查询 : 


mysql> EXPLAIN SELECT x FROM sl WHERE key partl = a ;| 

















id | select type | table | partitions | type | possible keys | key key_ len 
ref | rows | filtered | Extra | 
1 | SIMPLE | sl NULL ref idx key part | idx key part | 303 
const | 12 | 100.00 | NULL | 


























1 row in set, 1 warning (0. 00 sec) 


我 们 可 以 从 执行 计划 的 key_len 列 中 看 到 值 是 303 ， 这 意味 着 MySQL 在 执行 上 述 查 询 中 只 能 用 到 idx key_part 
索引 的 一 个 索引 列 ， 而 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT x* FROM sl WHERE key partl = "a AND key part2 = "b ; 





























id | select type | table | partitions | type | possible keys | key | key len 
ref | rows | filtered | Extra | 
1 | SIMPLE | sl NULL ref idx key part | idx key part | 606 
const, const | 1 | 100.00 | NULL 











1 row in set, 1 warning (0.01 sec) 


这 个 查询 的 执行 计划 的 ken_len 列 的 值 是 606 ， 说 明 执行 这 个 查询 的 时 候 可 以 用 到 联合 索引 idx_key_part 的 两 
个 索引 列 。 
15.1.8 ref 


当 使 用 索引 列 等 值 匹配 的 条 件 去 执行 查询 时 ， 也 就 是 在 访问 方法 是 const 、 eq ref 、 ref 、 ref or null、 


unique_subquery 、 index_subquery 其 中 之 一 时 ， ref 列 展 示 的 就 是 与 索引 列 作 等 值 匹 配 的 东 东 是 个 啥 ， 比 如 
只 是 一 个 常数 或 者 是 某 个 列 。 大 家 看 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT x* FROM sl WHERE keyl = "a ; 








id | select type | table | partitions | type | possible keys | key key len | ref 
rows | filtered | Extra | 








1 | SIMPLE | sl NULL ref idx keyl | idx keyl | 303 cons 
Gs|| 8 100. 00 | NULL 
































1 row in set, 1 warning (0.01 sec) 


可 以 看 到 ref 列 的 值 是 const ， 表 明 在 使 用 idx_keyl 索引 执行 查询 时 ， 与 keyl 列 作 等 值 匹配 的 对 象 是 一 个 党 
数 ， 当 然 有 时 候 更 复杂 一 点 : 


mysql> EXPLAIN SELECT * FROM sl INNER JOIN s2 ON Sl.id = S2. 1d; 








id | select type | table | partitions | type possible keys | key key len | ref 
rows | filtered | Extra | 








1 | SIMPLE | sl NULL ALL PRIMARY NULL NULL NUL 
L 9688 | 100. 00 | NULL 
1 | SIMPLE | 32 NULL eq ref | PRIMARY PRIMARY | 4 xia 

















ohaizi. sl. id 1 | 100.00 | NULL 





























2 rows in set, 1 warning (0.00 sec) 


可 以 看 到 对 被 驱动 表 s2 的 访问 方法 是 eq_ref ， 而 对 应 的 ref 列 的 值 是 xiaohaizi. sl. id ， 这 说 明 在 对 被 驱动 
表 进 行 访问 时 会 用 到 PRIMARY 索引 ， 也 就 是 聚 簇 索 引 与 一 个 列 进行 等 值 匹配 的 条 件 ， 于 s2 表 的 id 作 等 值 匹配 
的 对 象 就 是 xiaohaizi. sl. id 列 (注意 这 里 把 数据 库 名 也 写 出 来 了 ) 。 


有 的 时 候 与 索引 列 进行 等 值 匹配 的 对 象 是 一 个 函数 ， 比 方 说 下 边 这 个 查询 : 


mysql> EXPLAIN SELECT * FROM sl INNER JOIN s2 ON s2.keyl = UPPER(sl. keyl) ; 








id | select type | table | partitions | type | possible keys | key key len | ref 
rows | filtered | Extra 








1 | SIMPLE We NULL ALL NULL | NULL NULL NULL 


9688 | 100.00 | NULL | 
1 | SIMPLE | s2 NULL ref idx keyl | idx keyl | 303 func 


























1 | 100.00 | Using index condition | 





2 rows in set, 1 warning (0.00 sec) 
我 们 看 执行 计划 的 第 二 条 记录 ， 可 以 看 到 对 s2 表 采 用 ref 访问 方法 执行 查询 ， 然 后 在 查询 计划 的 ref 列 里 输出 
的 是 func ， 说 明 与 s2 表 的 keyl 列 进行 等 值 匹 配 的 对 象 是 一 个 函数 。 
15.1.9 rows 


如 果 查 询 优化 器 决定 使 用 全 表 扫 描 的 方式 对 某 个 表 执 行 查询 时 ， 执 行 计划 的 rows 列 就 代表 预计 需要 扫描 的 行 
数 ， 如 果 使 用 索引 来 执行 查询 时 ， 执 行 计划 的 rows 列 就 代表 预计 扫描 的 索引 记录 行 数 。 比 如 下 边 这 个 查询 : 





mysql> EXPLAIN SELECT x FROM sl WHERE keyl > ”2 ; 





id | select type | table | partitions | type possible keys | key key len | ref 


rows | filtered | Extra 








1 | SIMPLE | sl NULL range | idx keyl | idx keyl 303 NUL 
L | 266 | 100. 00 | Using index condition 
































1 row in set, 1 warning (0. 00 sec) 


我 们 看 到 执行 计划 的 rows 列 的 值 是 266 ， 这 意味 着 查询 优化 器 在 经 过 分 析 使 用 idx_keyl 进行 查询 的 成 本 之 
后 ， 党 得 满足 keyl >“z” 这 个 条 件 的 记录 只 有 266 条 。 


15.1.10 filtered 


之 前 在 分 析 连 接 查 询 的 成 本 时 提出 过 一 个 condition filtering 的 概念 ， 就 是 MySQL 在 计算 驱动 表 扇 出 时 采用 的 
一 个 策略 : 
。 如 果 使 用 的 是 全 表 扫 描 的 方式 执行 的 单 表 查 询 ， 那 么 计算 驱动 表 房 出 时 需要 估计 出 满足 搜索 条 件 的 记录 到 | 底 
有 多 少 条 。 


。 如 果 使 用 的 是 索引 执行 的 单 表 扫 描 ， 那 么 计算 驱动 表 扇 出 的 时 候 需 要 估计 出 满足 除 使 用 到 对 应 索引 的 搜索 条 
件 外 的 其 他 搜索 条 件 的 记录 有 多 少 条 。 


比方 说 下 边 这 个 查询 : 














mysql> EXPLAIN SELECT x* FROM sl WHERE keyl > ”z”AND common field = "a 
id | select _ type | table | partitions | type possible keys | key key len | ref 
rows | filtered | Extra 
1 | SIMPLE | sl | NULL range | idx keyl | idx keyl | 303 NUL 
L | 266 | 10.00 | Using index condition; Using where 





























1 row in set, 1 warning (0. 00 sec) 


从 执行 计划 的 key 列 中 可 以 看 出 来 ， 该 查询 使 用 idx_keyl 索引 来 执行 查询 ， 从 rows 列 可 以 看 出 满足 keyl > 
“2 的 记录 有 266 条 。 执 行 计划 的 filtered 列 就 代表 查询 优化 器 预测 在 这 266 条 记录 中 ， 有 多 少 条 记录 满足 其 
余 的 搜索 条 件 ， 也 就 是 common_field =“a 这 个 条 件 的 百分比 。 此 处 filtered 列 的 值 是 10. 00 ， 说 明 查 询 优 
化 器 预测 在 266 条 记录 中 有 10. 00% 的 记录 满足 common_field =“a” 这 个 条 件 。 


对 于 单 表 查 询 来 说 ， 这 个 filtered 列 的 值 没 什么 意义 ， 我 们 更 关注 在 连接 查询 中 驱动 表 对 应 的 执行 计划 记录 的 
filtered 值 ， 比 方 说 下 边 这 个 查询 : 



































mysql> EXPLAIN SELECT x*¥ FROM sl INNER JOIN s2 ON sl.keyl = s2.keyl WHERE sl1. common field = 
"a : 
id | select type | table | partitions | type | possible keys | key key len | ref 
rows | filtered | Extra 
1 | SIMPLE | sl | NULL ALL idx keyl | NULL NULL NULL 
9688 | 10.00 | Using where 
1 | SIMPLE | s2 | NULL ref idx keyl | idx keyl | 303 Xiao 
haizi. sl. keyl | 1 100.00 | NULL | 








2 rows in set, 1 warning (0.00 sec) 


从 执行 计划 中 可 以 看 出 来 ， 查 询 优 化 器 打算 把 sl 当 作 驱动 表 ， s2 当 作 被 驱动 表 。 我 们 可 以 看 到 驱动 表 sl 表 的 
执行 计划 的 rows 列 为 9688 ， filtered 列 为 10. 00 ， 这 意味 着 驱动 表 sl 的 扇 出 值 就 是 9688 X 10. 00% = 
968. 8 ， 这 说 明 还 要 对 被 驱动 表 执 行 大 约 968 次 查询 。 


16 第 16 章 查询 优化 的 百科 全 书 -Explain 详 解 (下 ) 


标签 : MySQL 是 怎样 运行 的 


16.1 执行 计划 输出 中 各 列 详解 


本 章 紧 接着 上 一 节 的 内 容 ， 继 续 啼 明 EXPLAIN 语句 输出 的 各 个 列 的 意思 。 


16.1.1 Extra 


顾名思义 ， 


执行 给 定 的 查询 语句 。 


就 跟 文 档 差不多 了 ~ ) ， 所 以 我 们 只 挑 一 些 平时 常见 的 或 者 比较 重要 的 额外 信息 介绍 给 大 家 哈 。 


。 No tables used 


当 查 询 语句 的 没有 FROM 子 句 时 将 会 提示 该 额外 信息 ， 比 如 : 


mysql> EXPLAIN SELECT 1; 


Extra 列 是 用 来 说 明 一 些 额外 信息 的 ， 我 们 可 以 通过 这 些 额外 信息 来 更 准确 的 理解 MySQL 到 底 将 如 何 
MySQL 提供 的 额外 信息 有 好 几 十 个 ， 我 们 就 不 一 个 一 个 介绍 了 (都 介绍 了 感觉 我 们 的 文章 






























































id | select type | table | partitions | type | possible keys | key key len | re 
f rows | filtered | Extra 
1 | SIMPLE NULL NULL | NULL | NULL NULL | NULL NU 
LL | NULL NULL | No tables used 
1 row in set, 1 warning (0. 00 sec) 
。 Impossible WHERE 
查询 语句 的 WHERE 子 句 永远 为 FALSE 时 将 会 提示 该 额外 信息 ， 比 方 说 : 
mysql> EXPLAIN SELECT x*¥ FROM sl WHERE 1 != 1; 
id | select type | table | partitions | type | possible keys | key key len | re 
f rows | filtered | Extra 
1 | SIMPLE NULL NULL | NULL | NULL NULL | NULL NU 
LL | NULL NULL | Impossible WHERE 






































1 row in set, 1 warning (0.01 sec) 


。 No matching min/max row 


当 查 询 列 表 处 有 MIN 或 者 MAX 聚集 函数 ， 但 是 并 没有 符合 WHERE 子 句 中 的 搜索 条 件 的 记录 时 ， 将 会 提示 该 
额外 信息 ， 比 方 说 : 


ysql> EXPLAIN SELECT MIN (keyl) FROM sl WHERE keyl = "abcdefg ; 














id | select type | table | partitions | type | possible keys | key key len | re 
工 rows | filtered | Extra 
1 | SIMPLE NULL NULL | NULL | NULL NULL | NULL NU 
LL | NULL NULL | No matching min/max row 






































1 row in set. 


1 warning (0. 00 sec) 


和 


。 Using index 


当 我 们 的 查询 列表 以 及 搜索 条 件 中 只 包含 属于 某 个 索引 的 列 ， 也 就 是 在 可 以 使 用 索引 履 盖 的 情况 下 ， 在 
Extra 列 将 会 提示 该 额外 信息 。 比 方 说 下 边 这 个 查询 中 只 需要 用 到 idx_keyl 而 不 需要 回 表 操 作 : 

















ysql> EXPLAIN SELECT keyl FROM sl WHERE keyl = a ; 
id | select type | table | partitions | type | possible keys | key | key len 
| ref | rows | filtered | Extra 
1 | SIMPLE sl NULL | ref idx keyl idx keyl | 303 
| const | 8 | 100.00 | Using index | 




















1 row in set, 1 warning (0. 00 sec) 


。 Using index condition 


有 些 搜索 条 件 中 虽然 出 现 了 索引 列 ， 但 却 不 能 使 用 到 索引 ， 比 如 下 边 这 个 查询 : 


SELECT x* FROM sl WHERE keyl > z”AND keyl LIKE“%a ; 


其 中 的 Keyl 》，z 可 以 使 用 到 索引 ， 但 是 keyl LIKE，%a” 却 无 法 使 用 到 索引 ， 在 以 前 版 本 的 MysQL 中 ， 
是 按照 下 边 步骤 来 执行 这 个 查询 的 : 


先 根据 keyl > “2z ”这 个 条 件 ， 从 二 级 索引 idx_keyl 中 获取 到 对 应 的 二 级 索引 记录 。 
根据 上 一 步骤 得 到 的 二 级 索引 记录 中 的 主键 值 进行 回 表 ， 找 到 完整 的 用 户 记录 再 检测 该 记录 是 否 符合 
keyl LIKE“%a” 这 个 条 件 ， 将 符合 条 件 的 记录 加 入 到 最 后 的 结果 集 。 


但 是 虽然 keyl LIKE“%a” 不 能 组 成 范围 区 间 参 与 range 访问 方法 的 执行 ， 但 这 个 条 件 毕 竟 只 涉及 到 了 
keyl 列 ， 所 以 设计 MySQL 的 大 叔 把 上 边 的 步骤 改进 了 一 下 : 

先 根据 keyl >“z” 这 个 条 件 ， 定 位 到 二 级 索引 idx_keyl 中 对 应 的 二 级 索引 记录 。 

对 于 指定 的 二 级 索引 记录 ， 先 不 着 急 回 表 ， 而 是 先 检测 一 下 该 记录 是 否 满足 keyl LIKE“%a” 这 个 条 
件 ， 如 果 这 个 条 件 不 满足 ， 则 该 二 级 索引 记录 压根 儿 就 没 必要 回 表 。 

对 于 满足 keyl LIKE“ %a” 这 个 条 件 的 二 级 索引 记录 执行 回 表 操作 。 


我 们 说 回 表 操 作 其 实 是 一 个 随机 I0 ， 比 较 耗 时 ， 所 以 上 述 修改 虽然 只 改进 了 一 点 点 ， 但 是 可 以 省 去 好 
多 回 表 操作 的 成 本 。 设 计 MySQL 的 大 叔 们 把 他 们 的 这 个 改进 称 之 为 索引 条 件 下 推 (英文 名 : Index 


Condition Pushdown ) 。 





如 果 在 查询 语句 的 执行 过 程 中 将 要 使 用 索引 条 件 下 推 这 个 特性 ， 在 Extra 列 中 将 会 显示 Using index 
condition ， 比 如 这 样 : 





mysql> EXPLAIN SELECT x FROM sl WHERE keyl > ’z AND keyl LIKE“%b ; 








id | select type 


table | partitions | type 


| possible keys | key | key len 








| ref | rows | filtered | Extra 
1 | SIMPLE sl NULL | range | idx keyl idx keyl | 303 
| NULL | 266 | 100.00 | Using index condition | 




















1 row in set, 


Using where 


1 warning (0.01 sec) 


当 我 们 使 用 全 表 扫 描 来 执行 对 某 个 表 的 查询 ， 并 且 该 语句 的 WHERE 子 句 中 有 针对 该 表 的 搜索 条 件 时 ， 在 














Extra 列 中 会 提示 上 述 额外 信息 。 比 如 下 边 这 个 查询 : 
mysql> EXPLAIN SELECT * FROM sl WHERE common field= "a 
id | select type | table | partitions | type | possible keys | key key len | re 
f rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL NULL NULL | NULL NU 
LL | 9688 10. 00 | Using where 
































1 row in set, 








1 warning (0.01 sec) 


当 使 用 索引 访问 来 执行 对 某 个 表 的 查询 ， 并 且 该 语句 的 WHERE 子 句 中 有 除了 该 索引 包含 的 列 之 外 的 其 他 搜索 
条 件 时 ， 在 Extra 列 中 也 会 是 示 上 述 额 外 信息 。 ee 查询 虽然 使 用 idx_keyl 索引 执行 查询 ， 但 是 
搜索 条 件 中 除了 包含 keyl 的 搜索 条 件 keyl = ， 还 有 包含 common field 的 搜索 条 件 ， 所 以 Extra 列 会 


显示 Using where 的 提示 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl = a AND common field= a 








id | select type 


table | partitions | type 


possible keys | key | key len 








| ref | rows | filtered | Extra 
1 | SIMPLE sl NULL | ref | idx keyl idx keyl | 303 
| const | 8 | 10.00 | Using where | 























1 row in set, 


1 warning (0. 00 sec) 


Using join buffer (Block Nested Loop) 


在 连接 查询 执行 过 程 中 ， 当 被 驱动 表 不 能 有 效 的 利用 索引 加 快 访问 速度 ， MySQL 一 般 会 为 其 分 配 一 块 名 叫 
join buffer 的 内 存 块 来 加 快 查询 速度 ， 也 就 是 我 们 所 讲 的 基于 块 的 嵌 套 循环 算法 ， 比 如 下 边 这 个 查询 语 


句 : 











mysql> EXPLAIN SELECT x*¥ FROM sl INNER JOIN s2 ON Sl. common field = s2. common field; 


























id | select type | table | partitions | type | possible keys | key key len | re 
f rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL NULL | NULL | NULL | NU 
LL | 9688 100. 00 | NULL 
1 | SIMPLE &2 NULL | ALL NULL | NULL | NULL | NU 
LL | 9954 10.00 | Using where; Using join buffer (Block Nested Loop) 




















2 rows in set, 1 warning (0.03 sec) 


可 以 在 对 s2 表 的 执行 计划 的 Extra 列 显 示 了 两 个 提示 : 

" Using join buffer (Block Nested Loop) : 这 是 因为 对 表 s2 的 访问 不 能 有 效 利用 索引 ， 只 好 退 而 求 
其 次 ,使 用 join buffer 来 减少 对 s2 表 的 访问 次 数 ， 从 而 提高 性 能 。 
Using where : 可 以 看 到 查询 语句 中 有 一 个 sl. common field = s2. common field 条 件 ， 因 为 sl 是 驱 
动 表 ， s2 是 被 驱动 表 ， 所 以 在 访问 s2 表 时 ， sl. common_field 的 值 已 经 确定 下 来 了 ， 所 以 实际 上 查 
询 s2 表 的 条 件 就 是 s2. common field = 一 个 常数 ， 所 以 提示 了 Using where 额外 信息 。 
Not exists 


当 我 们 使 用 左 (外 ) 连接 时 ， 如 果 WHERE 子 句 中 包含 要 求 被 驱动 表 的 某 个 列 等 于 NULL 值 的 搜索 条 件 ， 而 且 
那个 列 又 是 不 允许 存储 NULL 值 的 ， 那 么 在 该 表 的 执行 计划 的 Extra 列 就 会 提示 Not exists 额外 信息 ， 比 
如 这 样 : 


mysql> EXPLAIN SELECT x*¥ FROM sl LEFT JOIN s2 ON sl.keyl = s2.keyl WHERE s2. id IS NUL 
nm 


























id | select type | table | partitions | type | possible keys | key | key len 
| ref rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL | NULL NULL | NULL 
| NULL 9688 | 100. 00 | NULL 
1 | SIMPLE S2 NULL | ref | idx keyl idx keyl | 303 
| xiaohaizi. sl.keyl 1 | 10.00 | Using where; Not exists 








2 rows in set, 1 warning (0.00 sec) 


上 述 查 询 中 sl 表 是 驱动 表 ， s2 表 是 被 驱动 表 ， s2. id 列 是 不 允许 存储 NULL 值 的， 而 WHERE 子 句 中 又 包 
含 s2. id IS NULL 的 搜索 条 件 ， 这 意味 着 必定 是 驱动 表 的 记录 在 被 驱动 表 中 找 不 到 匹配 ON 子 句 条 件 的 记录 
才 会 把 该 驱动 表 的 记录 加 入 到 最 终 的 结果 集 ， 所 以 对 于 某 条 驱动 表 中 的 记录 来 说 ， 如 果 能 在 被 驱动 表 中 找到 
1 条 符合 ON 子 句 条 件 的 记录 ， 那 么 该 驱动 表 的 记录 就 不 会 被 加 入 到 最 终 的 结果 集 ， 也 就 是 说 我 们 没有 必要 到 
被 驱动 表 中 找到 全 部 符合 ON 子 句 条 件 的 记录 ， 这 样 可 以 稍微 节省 一 点 性 能 。 


小 贴 士 : 
右 ( 外 ) 连接 可 以 被 转换 为 左 〈 外 ) 连接 ， 所 以 就 不 提 右 外) 连接 的 情况 了 。 














。 Using intersect (...) 、 


Using union(...) 和 Using sort union(...) 


如 果 执 行 计划 的 Extra 列 出 现 了 Using intersect (...) 提示 ， 说 明 准 备 使 用 Intersect 索引 合并 的 方式 执 
行 查询 ， 括 号 中 的 .. .表示 需要 进行 索引 合并 的 索引 名 称 ; 如 果 出 现 了 Using union(...) 提示 ， 说 明 准 备 
使 用 Union 索引 合并 的 方式 执行 查询 ; 出 现 了 Using sort_union(...) 提示 ， 说 明 准 备 使 用 Sort-Union 索 
引 合 并 的 方式 执行 查询 。 比 如 这 个 查询 的 执行 计划 : 


mysql> EXPLAIN SELECT * FROM sl WHERE keyl = a AND key3 = as ; 























二 生生 十 

| id | select type | table | partitions | type | possible keys | key 
| key len | ref | rows | filtered | Extra 
全 二 二 二 有 二 十 

| 1 | SIMPLE | sl | NULL | index merge | idx keyl, idx key3 | idx key 
3, idx keyl | 303,303 | NULL | 1 | 100.00 | Using intersect (idx key3, idx keyl); Us 
ing where 
二 生生 二 二 十 


1 row in set, 1 warning (0. 01 sec) 


其 中 Extra 列 就 显示 了 Using intersect (idx key3, idx keyl) ， 表 明 MySQL 即将 使 用 idx key3 和 


idx_keyl 这 两 个 索引 进行 Intersect 索引 合并 的 方式 执行 查询 。 


小 贴 士 : 
剩 下 两 种 类 型 的 索引 合 3 














的 Extra 列 信息 就 不 一 一 举例 子 了 ， 














。 Zero limit 


自己 写 个 查询 隔 晤 喘 ~ 



































当 我 们 的 LIMIT 子 句 的 参数 为 0 时 ， 表 示 压 根 儿 不 打算 从 表 中 读 出 任何 记录 ， 将 会 提示 该 额外 信息 ， 比 如 这 
样 : 
mysql> EXPLAIN SELECT * FROM sl LIMIT 0; 
id | select type | table | partitions | type | possible keys | key key len | re 
下 rows | filtered | Extra 
1 | SIMPLE NULL NULL | NULL | NULL NULL | NULL NU 
LL | NULL NULL | Zero limit | 














1 row in set, 1 warning (0. 00 sec) 


。 Using filesort 


有 一 些 情况 下 对 结果 集中 的 记录 进行 排序 是 可 以 使 用 到 索引 的 ， 比 如 下 边 这 个 查询 : 


ysql> EXPLAIN SELECT x* FROM sl ORDER BY keyl LIMIT 10; 








id | select type 


table 


partitions | type 


| possible keys 


key 


key len 








| ref | rows | filtered | Extra | 
1 | SIMPLE sl NULL | index | NULL idx keyl | 303 
| NULL | 10 | 100.00 | NULL | 




















1 row in set, 1 warning (0. 03 sec) 


这 个 查询 语句 可 以 利用 idx_keyl 索引 直接 取出 keyl 列 的 10 条 记录 ， 然 后 再 进行 回 表 操作 就 好 了 。 但 是 很 


多 情况 下 排序 操作 无 法 使 用 到 索引 ， 


LO 
只 能 


排序 ， 设 计 MySQL 的 大 叔 把 这 种 在 内 存 中 或 者 磁盘 上 进行 排序 的 方式 统称 为 文件 排序 (英文 名 : 
filesort ) 。 如 果 某 个 查询 需要 使 用 文件 排序 的 方式 执行 查询 ， 就 会 在 执行 计划 的 Extra 列 中 显示 Using 


filesort 提示 ， 比 如 这 样 : 


ysql> EXPLAIN SELECT x*¥ FROM sl ORDER BY common field LIMIT 10; 


在 内 存 中 (记录 较 少 的 时 候 ) 或 者 磁盘 中 (记录 较 多 的 时 候 ) 进行 














id | select type | table | partitions | type | possible keys | key key len | re 
f rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL NULL NULL | NULL NU 
LL | 9688 100.00 | Using filesort 






































1 row in set, 1 warning (0. 00 sec) 


需要 注意 的 是 ， 如 果 查 询 中 需要 使 用 filesort 的 方式 进行 排序 的 记录 非常 多 ， 那 么 这 个 过 程 是 很 耗费 性 能 
的 ， 我 们 最 好 想 办 法 将 使 用 文件 排序 的 执行 方式 改 为 使 用 索引 进行 排序 。 


Using temporary 


在 许多 查询 的 执行 过 程 中 ， MySQL 可 能 会 借助 临时 表 来 完成 一 些 功 能 ， 比 如 去 重 、 排 序 之 类 的 ， 比 如 我 们 在 
执行 许多 包含 DISTINCT 、 GROUP BY 、 UNION 等 子 句 的 查询 过 程 中 ， 如 果 不 能 有 效 利 用 索引 来 完成 查询 ， 
MySQL 很 有 可 能 寻求 通过 建立 内 部 的 临时 表 来 执行 查询 。 如 果 查 询 中 使 用 到 了 内 部 的 临时 表 ， 在 执行 计划 
的 Extra 列 将 会 显示 Using temporary 提示 ， 比 方 说 这 样 : 














ysql> EXPLAIN SELECT DISTINCT common field FROM s1; 
id | select type | table | partitions | type | possible keys | key key len | re 
f rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL NULL NULL | NULL NU 
LL | 9688 100.00 | Using temporary 






































1 row in set, 1 warning (0. 00 sec) 


再 比如 : 


ysql> EXPLAIN SELECT common field，COUNT (*) AS _ amount FROM sl GROUP BY common fiel 
































d; 
id | select type | table | partitions | type | possible keys | key key len | re 
下 rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL NULL NULL | NULL NU 
LL | 9688 100.00 | Using temporary; Using filesort 




















1 row in set, 1 warning (0. 00 sec) 


不 知道 大 家 注意 到 没有 ， 上 述 执行 计划 的 Extra 列 不 仅仅 包含 Using temporary 提示 ,还 包含 Using 
filesort 提示 ， 可 是 我 们 的 查询 语句 中 明明 没有 写 ORDER BY 子 句 呀 ? 这 是 因为 MySQL 会 在 包含 GROUP BY 
子 句 的 查询 中 默认 添加 上 ORDER BY 子 句 ， 也 就 是 说 上 述 查 询 其 实 和 下 边 这 个 查询 等 价 : 


EXPLAIN SELECT common field, COUNT(*) AS amount FROM sl GROUP BY common field ORDER 


BY common field; 
如 果 我 们 并 不 想 为 包含 GROUP BY 子 句 的 查询 进行 排序 ， 需 要 我 们 显 式 的 写 上 ORDER BY NULL ， 就 像 这 样 : 


mysql> EXPLAIN SELECT common _ field，COUNT(*) AS amount FROM sl GROUP BY common field 
ORDER BY NULL ; 








id | select type | table | partitions | type | possible keys | key key len | re 








f rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL NULL NULL | NULL NU 
LL | 9688 100.00 | Using temporary 






































1 row in set, 1 warning (0. 00 sec) 
这 回执 行 计划 中 就 没有 Using filesort 的 提示 了 ， 也 就 意味 着 执行 查询 时 可 以 省 去 对 记录 进行 文件 排序 的 
成 本 了 。 
另外 ， 执 行 计划 中 出 现 Using temporary 并 不 是 一 个 好 的 征兆 ， 因 为 建立 与 维护 临时 表 要 付出 很 大 成 本 的 ， 


所 以 我 们 最 好 能 使 用 索引 来 蔡 代 掉 使 用 I 临 时 表 ， 比 方 说 下 边 这 个 包含 GROUP BY 子 句 的 查询 就 不 需要 使 用 临 
时 表 : 


mysql> EXPLAIN SELECT keyl，COUNT (#) AS amount FROM sl GROUP BY keyl; 








id | select type | table 


partitions | type 


| possible keys 


key | key len 








| ref | rows | filtered | Extra 
1 | SIMPLE sl NULL | index | idx keyl idx keyl | 303 
| NULL | 9688 | 100.00 | Using index | 

















1 row in set, 1 warning (0. 00 sec) 





从 Extra 的 Using index 的 提示 里 我 们 可 以 看 出 ， 上 述 查 询 只 需要 扫描 idx_keyl 索引 就 可 以 搞定 了 ， 不 再 


需要 临时 表 了 。 


。 Start temporary，End temporary 


我 们 前 边 史 明 子 查询 的 时 候 说 过 ， 查 询 优化 器 会 优先 尝试 将 IN 子 查询 转换 成 semi-join ， 而 semi-join 又 
有 好 多 种 执行 策略 ， 当 执行 策略 为 DuplicateWeedout 时 ， 也 就 是 通过 建立 临时 表 来 实现 为 外 层 查询 中 的 记 

录 进 行 去 重 操作 时 ， 驱 动 表 查 询 执行 计划 的 Extra 列 将 显示 Start temporary 提示 ， 被 驱动 表 查 询 执行 计划 
的 Extra 列 将 显示 End temporary 提示 ， 就 是 这 样 : 





























mysql> EXPLAIN SELECT x* FROM sl WHERE keyl IN (SELECT key3 FROM s2 WHERE common fiel 
d= "a 
id | select type | table | partitions | type | possible keys | key | key len 

| ref rows | filtered | Extra 

1 | SIMPLE s2 NULL | ALL idx key3 NULL | NULL 
| NULL 9954 | 10.00 | Using where; Start temporary | 

1 | SIMPLE sl NULL | ref idx keyl idx keyl | 303 
| xiaohaizi. s2. key3 1 | 100.00 | End temporary 











2 rows in set, 1 warning (0.00 


。 LooseScan 


sec) 


在 将 In 子 查询 转 为 semi-join 时 ， 如 果 采 用 的 是 LooseScan 执行 策略 ， 则 在 驱动 表 执 行 计划 的 Extra 列 就 


是 显示 LooseScan 提示 ， 比 如 这 样 : 


mysql> EXPLAIN SELECT * FROM sl WHERE key3 IN (SELECT keyl FROM s2 WHERE keyl > 


Be 


Z 








id | select type | table | partitions | type | possible keys | key | key len 


| ref rows | filtered | Extra | 











1 | SIMPLE s2 NULL | range | idx keyl idx keyl | 303 
| NULL | 270 | 100.00 | Using where; Using index; LooseScan | 

1 | SIMPLE sl NULL | ref | idx key3 idx key3 | 303 
| xiaohaizi. s2. keyl | 1 | 100.00 | NULL | 

















2 rows in set, 1 warning (0.01 sec) 
。 FirstMatch(tbl name) 


在 将 In 子 查询 转 为 semi-join 时 ， 如 果 采 用 的 是 FirstMatch 执行 策略 ， 则 在 被 驱动 表 执 行 计划 的 Extra 
列 就 是 显示 FirstMatch (tbl_name) 提示 ， 比 如 这 样 : 


























mysql> EXPLAIN SELECT * FROM sl WHERE common field IN (SELECT keyl FROM s2 where sl. 
key3 = s2. key3) ; 
id | select type | table | partitions | type | possible keys key key 
len | ref | rows | filtered | Extra 
1 | SIMPLE sl NULL | ALL idx key3 NULL NULL 
| NULL | 9688 | 100.00 | Using where | 
1 | SIMPLE s2 NULL | ref idx keyl, idx key3 | idx key3 | 303 
| xiaohaizi. sl. key3 | 1 | 4.87 | Using where; FirstMatch(sl) | 




















2 rows in set, 2 warnings (0.00 sec) 


16.2 Json 格 式 的 执行 计划 


我 们 上 边 介绍 的 EXPLATN 语句 输出 中 缺少 了 一 个 衡量 执行 计划 好 坏 的 重要 属性 一 一 成 本 。 不 过 设计 MySQL 的 大 
叔 贴 心 的 为 我 们 提供 了 一 种 查看 某 个 执行 计划 花费 的 成 本 的 方式 : 


。 在 EXPLAIN 单词 和 真正 的 查询 语句 中 间 加 上 FORMAT=JSON 。 
这 样 我 们 就 可 以 得 到 一 个 json 格式 的 执行 计划 ， 里 边 儿 包 含 该 计划 花费 的 成 本 ， 比 如 这 样 : 


mysql> EXPLAIN FORMAT=JSON SELECT x*¥ FROM sl INNER JOIN S2 ON Sl.keyl = s2. key2 WHERE sl. co 
mmon field = "a \G 


六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 六 阔 ”] 。 了 OW_ 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 炒米 


























EXPLAIN: { 
“query block”: { 
“select id”: 1, # 整个 查询 语句 只 有 1 个 SELECT 关 键 字 ， 该 关键 字 对 应 的 id 号 为 1 
“cost info”: { 
“query_cost”: “3197.16” # 整个 查询 的 执行 成 本 预计 为 3197. 16 








} 
“nested loop”: [ # 几 个 表 之 间 采 用 髓 套 循 坏 连接 算法 执行 
































# 以 下 是 参与 租 套 循环 连接 算法 的 各 个 表 的 信息 
{ 
“table”: { 
“table name”:“sl”， # sl 表 是 驱动 表 
“access type”: “ALL”, # 访问 方法 为 ALL， 意 味 着 使 用 全 表 扫 描 访 问 
“possible keys”: [ # 可 能 使 用 的 索引 
“idx keyl” 
本 
“rows_examined per scan”: 9688， # 查询 一 次 s1 表 大 致 需要 扫描 9688 条 记录 
“rows produced per join”: 968, # 驱动 表 s1 的 局 出 是 968 
“filtered”: “10.00”， # condition filtering 代 表 的 百分比 
“cost info”: { 





































































































“read cost”: “1840. 84”, # 稍 后 解释 
“eval cost”: “193.76”, # 稍 后 解释 
“prefix_cost”:“2034. 60”， # 单 次 查询 sl1 表 总 共 的 成 本 
“data read per join”:“1M” # 读 取 的 数据 量 
局 
“used columns”: [ # 执行 查询 中 涉及 到 的 列 
“id 
”key1”, 
”key2”, 
“key3”, 


“key part1”, 
“key part2”, 





key part3”, 


“common field” 


J 








# 对 sl 表 访 问 时 针对 单 表 查 询 的 条 件 
“attached condition”: “(( xiaohaizi . sl . common field = a ) and (xiaohaizi 
.sl . keyl is not null))” 
} 
}， 
{ 
“table”: { 
“table name”:“s2”， # s2 表 是 被 驱动 表 
“access type”: “Tef ， # 访问 方法 为 ref， 意 味 着 使 用 索引 等 值 匹配 的 方式 访问 
“possible keys”: [ # 可 能 使 用 的 索引 
“idx key2” 
J， 





























» 


“key”: 














“idx key2”, 

“used key parts”: [ 
“key2” 

“key length”: “5”, 


» 


# 实际 使 用 的 索引 
# 使 用 到 的 索引 列 











# key len 
ref”: [ # 与 Key2 列 进行 等 值 匹 配 的 对 象 
“xiaohaizi. sl. key1l” 


3 














# 查询 





“rows examined per scan”: 1, 

“rows produced per join”: 968, 
进行 连接 ， 所 以 这 个 值 也 没 啥 用 ) 

“filtered”: “100. 00” 
































# s2 表 使 用 索引 进行 查询 的 搜索 条 件 


“index condition”: 





“(xiaohaizi . sl .| 
“cost info”: { 









































“read cost”: “968. 80”, # 稍 后 解释 
“eval cost”: “193.76”, # 稍 后 解释 
“prefix cost”: “3197.16“， # 自 
“data read per join”:“1M” # 读 取 的 数据 量 
上 
“used columns”: [ # 执行 查询 中 涉及 到 的 列 
“id 
“key1”, 
“key2”, 
”key3”, 


“key_part1”, 
“key_part2”, 





key part3”, 


“common field” 


1 row in set, 2 warnings (0. 00 sec) 


次 s2 表 大 致 需要 扫 
# 被 驱动 表 s2 的 


keyl = xiaohaizi . 


昔 1 条 记录 
扇 出 是 968〈 由 于 后 边 没 有 多 余 的 表 



































# condition filtering 代 表 的 百分比 


2 


次 查询 s1、 多 次 查询 s2 表 总 共 的 成 本 


我 们 使 用 # 后 边 跟 随 注释 的 形式 为 大 家 解释 了 EXPLAIN FORMAT=JSON 语句 的 输出 内 容 ， 但 是 大 家 可 能 有 疑 
问 “cost_info” 里 边 的 成 本 看 着 怪 怪 的 ， 它 们 是 怎么 计算 出 来 的 ?” 先 看 sl 表 的 “cost_info” 部分: 


“cost info“: { 
“read cost”: “1840. 84”, 
“eval cost”: “193.76”, 
“prefix cost”: “2034. 60”, 
“data read per join”: “1M” 


} 


。 read_cost 是 由 下 边 这 两 部 分 组 成 的 : 
" I0 成 本 
a 检测 rows xX (1 =- filter) 条 记录 的 CPU 成 本 


小 贴 士 : 
rows 和 filter 都 是 我 们 前 边 介 绍 执行 计划 的 输出 列 ， 在 JSON 格 式 的 执行 计划 中 ，rows 相 当 于 ro 


ws examined per scan，filtered 名 称 不 变 。 





。 eval_cost 是 这 样 计算 的 : 
命 测 rows X filter 条 记录 的 成 本 。 
。 prefix_cost 就 是 单独 查询 sl 表 的 成 本 ， 也 就 是 : 


read cost + eval cost 


。 data_read_per_join 表示 在 此 次 查询 中 需要 读 取 的 数据 量 ， 我 们 就 不 多 噶 明 这 个 了 。 


小 贴 士 : 
大 家 其 实 没 必 要 关注 MySQL 为 啥 使 用 这 么 古怪 的 方式 计算 出 read_cost 和 eval_cost， 关 注 prefix_cost 是 


查询 s1 表 的 成 本 就 好 了 。 


























对 于 s2 表 的 “cost_info” 部 分 是 这 样 的 : 


“cost info”: { 
“read cost”: “968. 80”, 
“eval cost”: “193.76”, 
“prefix cost”: “3197. 16”, 
“data read per join”: “1M” 
} 
由 于 s2 表 是 被 驱动 表 ， 所 以 可 能 被 读 取 多 次 ， 这 里 的 read cost 和 eval_ cost 是 访问 多 次 s2 表 后 累加 起 来 的 
值 ， 大 家 主要 关注 里 边 儿 的 prefix_cost 的 值 代表 的 是 整个 连接 查询 预计 的 成 本 ， 也 就 是 单 次 查询 sl 表 和 多 次 
查询 s2 表 后 的 成 本 的 和 ， 也 就 是 : 


968. 80 + 193.76 + 2034. 60 = 3197. 16 


16.3 Extented EXPLAIN 


最 后 ， 设 计 MySQL 的 大 叔 还 为 我 们 留 了 个 彩蛋 ， 在 我 们 使 用 EXPLAIN 语句 查看 了 某 个 查询 的 执行 计划 后 ， 紧 接着 
还 可 以 使 用 SHOW WARNINGS 语句 查看 与 这 个 查询 的 执行 计划 有 关 的 一 些 扩展 信息 ， 比 如 这 样 : 


mysql> EXPLAIN SELECT Sl. keyl, s2.keyl FROM sl LEFT JOIN s2 ON Sl.keyl = s2. keyl WHERE S2 
common field IS NOT NULL ; 








id | select type | table | partitions | type | possible keys | key key len | ref 
rows | filtered | Extra 








1 | SIMPLE | s2 | NULL ALL idx keyl | NULL NULL NULL 





9954 | 90. 00 | Using where 
1 SIMPLE | sl | NULL ref idx keyl | idx keyl 303 Xxiao 

















haizi. s2. keyl | 1 | 100.00 | Using index | 











2 rows in set, 1 warning (0.00 sec) 


mysql> SHOW WARNINGS\G 
米 米 米 米 米 米 炒米 米 米 米 米 炒米 米 米 米 米 米 米 米 米 炒米 米 米 米 二 了 OW 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 

Level: Note 

Code: 1003 
Message: /* select#l */ select xiaohaizi . sl . keyl AS keyl , xiaohaizi . s2 . keyl A 
S keyl from xiaohaizi . sl join xiaohaizi . s2 where (( xiaohaizi . sl . keyl = xi 
aohaizi . s2 . keyl ) and (xiaohaizi . s2 . common field is not null)) 
1 row in set (0.00 sec) 


大 家 可 以 看 到 SHOW WARNINGS 展示 出 来 的 信息 有 三 个 字段 ,分 别 是 Level 、 Code 、 Message 。 我 们 最 常见 的 就 
是 Code 为 1003 的 信息 ， 当 Code 值 为 1003 时 ， Message 字段 展示 的 信息 类 似 于 查询 优化 器 将 我 们 的 查询 语句 

重 写 后 的 语句 。 比 如 我 们 上 边 的 查询 本 来 是 一 个 左 (外 ) 连接 查询 ， 但 是 有 一 个 s2. common field IS NOT NULL 

的 条 件 ， 着 就 会 导致 查询 优化 器 把 左 (外 ) 连接 查询 优化 为 内 连接 查询 ， 从 SHOW WARNINGS 的 Message 字段 也 可 
以 看 出 来 ， 原 本 的 LEFT JOIN 已 经 变 成 了 JOIN 。 


但 是 大 家 一 定 要 注意 ， 我 们 说 Message 字段 展示 的 信息 类 似 于 查询 优化 器 将 我 们 的 查询 语句 重 写 后 的 语句 ， 并 不 
是 等 价 于 ， 也 就 是 说 Message 字段 展示 的 信息 并 不 是 标准 的 查询 语句 ， 在 很 多 情况 下 并 不 能 直接 拿 到 黑 框框 中 运 
行 ， 它 只 能 作为 帮助 我 们 理解 查 MySQL 将 如 何 执行 查询 语句 的 一 个 参考 依据 而 已 。 
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标签 : MySQL 是 怎样 运行 的 


对 于 MySQL 5. 6 以 及 之 前 的 版 本 来 说 ， 查 询 优化 器 就 像 是 一 个 黑 盒 子 一 样 ， 你 只 能 通过 EXPLAIN 语句 查看 到 最 后 
优化 器 决定 使 用 的 执行 计划 ， 却 无 法 知道 它 为 什么 做 这 个 决策 。 这 对 于 一 部 分 喜欢 刨 根 问 底 的 小 伙伴 来 说 简直 是 
灾难 : “我 就 觉得 使 用 其 他 的 执行 方案 比 EXPLAI 输出 的 这 种 方案 强 ， 赁 什么 优化 器 做 的 决定 和 我 想 的 不 一 样 
呢 ?“ 


在 MySQL 5.6 以 及 之 后 的 版 本 中 ， 设 计 MySQL 的 大 叔 贴 心 的 为 这 部 分 小 伙伴 提出 了 一 个 optimizer trace 的 功 
能 ， 这 个 功能 可 以 让 我 们 方便 的 查看 优化 器 生成 执行 计划 的 整个 过 程 ， 这 个 功能 的 开启 与 关闭 由 系统 变量 
optimizer trace 决定 ， 我 们 看 一 下 : 


mysql> SHOW VARIABLES LIKE ’ optimizer trace ; 





Variable name Value 





optimizer trace | enabled=off, one line=off | 











1 row in set (0.02 sec) 
可 以 看 到 enabled 值 为 off ， 表 明 这 个 功能 默认 是 关闭 的 。 


小 贴 士 : 
one_line 的 值 是 控制 输出 格式 的 ， 如 果 为 on 那么 所 有 输出 都 将 在 一 行 中 展示 ， 不 适合 人 阅读 ， 所 以 我 们 
就 保持 其 默认 值 为 off 吧 。 





















































如 果 想 打开 这 个 功能 ， 必 须 首先 把 enabled 的 值 改 为 on ， 就 像 这 样 : 


mysql> SET optimizer trace=“ enabled=on ; 
Query OK，0 rows affected (0. 00 sec) 


然后 我 们 就 可 以 输入 我 们 想 要 查看 优化 过 程 的 查询 语句 ， 当 该 查询 语句 执行 完成 后 ， 就 可 以 到 
information schema 数据 库 下 的 OPTIMIZER TRACE 表 中 查看 完整 的 优化 过 程 。 这 个 OPTIMIZER TRACE 表 有 4 个 
列 ， 分 别 是 : 


。 QUERY : 表示 我 们 的 查询 语句 。 
。 TRACE : 表示 优化 过 程 的 JSON 格 式 文本 。 
。 MISSING_BYTES_BEYOND_MAX_MEM_SIZE : 由 于 优化 过 程 可 能 会 输出 很 多 ， 如 果 超 过 某 个 限制 时 ， 多 余 的 文本 
将 不 会 被 显示 ， 这 个 字段 展示 了 被 忽略 的 文本 字 节 数 。 
。 INSUFFICIENT_PRIVILEGES : 表示 是 否 没有 权限 查看 优化 过 程 ， 默 认 值 是 0， 只 有 某 些 特殊 情况 下 才 会 是 
1 ， 我 们 暂时 不 关心 这 个 字段 的 值 。 





完整 的 使 用 optimizer trace 功能 的 步骤 总 结 如 下 : 





# 1. 打开 optimizer trace 功 能 (默认 情况 下 它 是 关闭 的 ) : 


SET optimizer trace= “enabled=on ; 





# 2. 这 里 输入 你 自己 的 查询 语句 
SELECT ...; 








# 3， 从 OPTIMIZER_TRACE 表 中 查看 上 一 个 查询 的 优化 过 程 
SELECT x* FROM information schema. OPTIMIZER TRACE; 














# 4. 可 能 你 还 要 观察 其 他 语句 执行 的 优化 过 程 ， 


mh 





E 复 上 边 的 第 、3 步 

















# 5， 当 你 停止 查看 语句 的 优化 过 程 时 ， 把 optimizer trace 功 能 关闭 


SET optimizer trace= “enabled=off”; 














现在 我 们 有 一 个 搜索 条 件 比较 多 的 查询 语句 ， 它 的 执行 计划 如 下 : 


mysql> EXPLAIN SELECT * FROM sl WHERE 
一 > keyl > ”z”AND 
=> key2 《< 1000000 AND 
一 > key3 IN (a, "'b, cc) AND 
































一 > common field = ”abc ; 
id | select type | table | partitions | type possible keys key 
key len | ref | rows | filtered | Extra 
1 | SIMPLE | sl NULL range | idx key2, idx keyl, idx key3 | idx key2 
5 | NULL | 12 | 0.42 | Using index condition; Using where | 











1 row in set, 1 warning (0. 00 sec) 


可 以 看 到 该 查询 可 能 使 用 到 的 索引 有 3 个 ， 那 么 为 什么 优化 器 最 终 选择 了 idx_key2 而 不 选择 其 他 的 索引 或 者 直接 
全 表 扫 描 呢 ?这 时 候 就 可 以 通过 otpimzer trace 功能 来 查看 优化 器 的 具体 工作 过 程 : 


SET optimizer trace=”enabled=on”; 


SELECT x*¥ FROM sl WHERE 
keyl > ’z” AND 
key2《 1000000 AND 
key3 IN (Ca, bc ) AND 
common field = “abc ; 


SELECT x* FROM information schema. OPTIMIZER TRACE\G 


我 们 直接 看 一 下 通过 查询 OPTIMIZER_TRACE 表 得 到 的 输出 (我 使 用 # 后 跟随 注释 的 形式 为 大 家 解释 了 优化 过 程 中 
的 一 些 比较 重要 的 点 ， 大 家 重点 关注 一 下 ) : 


来 洲 水 洲 玉 玉米 炒米 沙洲 玉米 玉米 沙洲 水 玉米 玉米 玉米 水 沙沙“ 二。 OW 玉米 玉米 水 水 米 玉 玉米 炒米 玉米 玉米 炒米 炒米 炒米 炒米 炒米 炒 
# 分 析 的 查询 语句 是 什么 
QUERY: SELECT x*¥ FROM sl WHERE 

keyl > ’z” AND 

key2《 1000000 AND 

key3 IN (a, ’b, ’c ) AND 

common field = ’ abce’ 











# 优化 的 具体 过 程 
TRACE: { 
“steps”: [ 
{ 
”join preparation”: { # prepare 阶 段 
“select#”: 1, 
“steps”: [ 
{ 
“IN uses bisection”: true 
局 
{ 
“expanded query”: “/* select#l */ select sl . id AS id, sl . keyl AS key 
1 , sl . key2 AS key2 , sl . key3 AS key3 , sl . key partl AS key partl , sl . key p 
art2 AS key part2 , sl . key part3 AS key part3 , sl . common field AS common field 
from sl where ((sl . keyl > ’z) and (sl . key2 < 1000000) and (sl . key3 in 
Ca,’b’,’c)) and (sl . common field = abc ))” 
} 
] /* steps */ 
} /* join preparation */ 
} 
{ 
“join optimization”: { # optimize 阶 段 
“select#”: 1, 
“steps”: [ 
{ 
“condition processing”: { # 处 理 搜索 条 伯 
“condition”: “WHERE”, 
# 原始 搜索 条 件 
“original condition”: “(( sl . keyl > 2) and (sl . key2 < 1000000) and 
(sl . key3 in (a,’b,’c)) and (sl. common field = abc )) 
“steps”: [ 
{ 
# 等 值 传 递 转换 
“transformation”: “equality propagation”, 
“resulting condition”: “((sl . keyl > ’z) and (sl . key2 < 1000000) 
and (sl . key3 in (a,’b’,’c)) and (sl . common field = abc ))” 
}， 
{ 
# 常量 传递 转换 
“transformation”: “constant propagation”, 
“resulting condition”: “(( sl . keyl > 2) and (sl . key2 < 1000000) 
and (sl . key3 in (a,’b,’c)) and (sl . common field = ”abc ))” 
}， 
{ 





IT 




















# 去 除 没 用 的 条 件 
“transformation”: “trivial condition removal”, 
“resulting condition”: “(('sl . keyl > 7) and (sl . key2 < 1000000) 
and (sl . key3 in (a,’b,’c)) and (sl . common field = ”abc ))” 
} 
] /* steps */ 
} /* condition processing */ 
上 
{ 
# 替换 虚拟 生成 列 
“substitute generated columns”: { 
} /* substitute generated columns */ 
j 
{ 
# 表 的 依赖 信息 
“table dependencies”: [ 
{ 
“table”: ”sl “, 
“row may be null”: false 
“map bit”: 0, 
“depends on map bits”: [ 
] /x* depends on map bits */ 
} 


] /* table dependencies */ 








}， 
{ 
“ref optimizer key uses”: [ 
] /* ref optimizer key Uses */ 
bs 
{ 














# 预 估 不 同 单 表 访问 方法 的 访问 成 本 
“rows estimation”: [ 
{ 
“table”: ”sl “, 
“range analysis”: { 
“table scan”: { # 全 表 扫 描 的 行 数 以 及 成 本 
“rows” : 9688, 
“cost”: 2036.7 
} 人/# table scan */, 



































# 分 析 可 能 使 用 的 索引 
“potential range indexes”: [ 
{ 
“index”: “PRIMARY”， ”# 主键 不 可 用 


“usable”: false, 














T 





“cause”: “not applicable” 





“index”: “idx key2“， # idx key2 可 能 被 使 用 
“usable”: true， 


“key parts”: [ 


“key2” 
] /* key parts */ 

} 

{ 
“index”: “idx keyl“， # idx keyl 可 能 被 使 用 
“usable”: true, 





“key parts”: [ 
”key1”, 
“id 

] /# key parts */ 





“index”: “idx key3“， # idx key3 可 能 被 使 用 
“usable”: true， 
“key parts”: [ 


“key3”, 
“id 
] /* key parts */ 
} 
{ 














“index”: “idx key part”, # idx keypart 不 可 
“usable”: false, 








“cause”: “not applicable” 

} 
|] /* potential range indexes */, 
“setup range conditions”: [ 
] /# setup range conditions */, 
“group index range”: { 

“chosen”: false, 

“cause”: “not group by or distinct” 
} /x* group index range */, 





# 分 析 各 种 可 能 使 用 的 索引 的 成 本 


“analyzing range alternatives”: { 





“range scan alternatives”: [ 


{ 

# 使 用 idx_key2 的 成 本 分 析 
“index” : “idx key2”, 
# 使 用 idx_key2 的 范围 区 间 
“ranges”: [ 

“NULL < key2 《< 1000000” 
] /* ranges */, 
























































“index dives for eq ranges”: true， # 是 否 使 用 index dive 

“rowid ordered”: false, # 使 用 该 索引 获取 的 记录 是 否 按照 主键 排序 
“using mrr”: false， # 是 否 使 用 mrr 

“index only”: false, # 是 否 是 索引 履 盖 访问 

















“rows”: 12， # 使 用 该 索引 获取 的 记录 条 数 
“cost”: 15.41， # 使 用 该 索引 的 成 本 
“chosen : true # 是 否 选择 该 索引 

j 

{ 
# 使 用 idx_keyl 的 成 本 分 析 











“index“ : “idx keyl”, 
# 使 用 idx_keyl 的 范围 区 间 
“ranges”: [ 

“z < keyl” 
] /* ranges */, 
“index dives for eq ranges”: true, 
“rowid ordered”: false， # 同上 
“using mrr”: false， # 同上 
“index only”: false， # 同上 
“rows”: 266， # 同上 
“cost”: 320.21， # 同上 
“chosen”: false， # 同 上 

















“cause”: “cost” # 因为 成 本 太 大 所 以 不 选择 该 索引 


}， 
{ 

# 使 用 idx_ key3 的 成 本 分 析 
”index”: “idx key3”, 
# 使 用 idx_key3 的 范围 区 间 
“ranges”: [ 

“a 《= key3 《= a”, 

“b <= key3 《= b”, 

“c 《= key3 《= c” 
] /* ranges */, 
“index dives for eq ranges”: true, 
“rowid ordered”: false， # 同上 
“using mrr”: false， # 同上 
“index only”: false， # 同上 
“rows”: 21， # 同上 
“cost”: 28.21， # 同上 
“chosen”: false， # 同 上 
“cause”: “cost” # 同上 


} 


] /* range scan alternatives */, 

















# 分 析 使 用 索引 合并 的 成 本 
“analyzing roworder intersect”: { 
“usable”: false, 
“cause”: “too few roworder scans” 
} /x* analyzing roworder intersect */ 


} /* analyzing range alternatives */, 











# 对 于 上 述 单 表 查询 s1 最 优 的 访问 方法 


»” bg 
chosen range access summary”: { 





“range access plan: { 
“type”: “range scan”, 
”index” : “idx key2”, 
“rows”: 12, 

“ranges”: [ 
“NULL < key2 《< 1000000” 
] /* ranges */ 
} /* range access plan */, 


“rows_for plan”: 12, 


“cost for plan”: 15. 41， 
“chosen”: true 


} /* chosen range access summary */ 





} /x* range analysis */ 
} 
] /* rows estimation */ 
中 
{ 


# 分 析 各 种 可 能 的 执行 计划 
# (对 多 表 查 询 这 可 能 有 很 多 种 不 同 的 方案 ， 单 表 查 询 的 方案 上 边 已 经 分 析 过 了 ， 直 接 选 
取 idx_key2 就 好 ) 
“considered execution plans”: [ 
t 
“plan prefix”: [ 
] /# plan prefix */, 
“table gl 


“best access path”: { 









































“considered access paths”: [ 
{ 
“rows to scan”: 12, 
“access type”: “range”, 
“range details”: { 
“used index”: “idx key2” 
} /* range details */, 
“resulting rows”: 12, 
“cost”: 17.81, 
“chosen”: true 
} 
|] /* considered access paths */ 
} /* best access path */, 
“condition filtering pct”: 100, 
“rows_for plan”: 12, 
“cost for plan”: 17.81, 
“chosen”: true 
bl 
] /* considered execution plans */ 
}; 
{ 
# 尝试 给 查询 添加 一 些 其 他 的 查询 条 件 
“attaching conditions to tables”: { 
“original condition :“(( sl . keyl > ’z) and (sl . key2 < 1000000) and 
(sl . key3 in (a,’b,’c)) and (sl. common field = ”abc )) 
“attached conditions computation”: [ 


上 





] /# attached conditions computation */, 





“attached conditions summary”: [ 
{ 
“table”: ”sl ”, 
“attached”: “((sl . keyl > ’z) and (sl . key2 < 1000000) and ( sl. 
‘key3 in (a,’b’,’c)) and (sl . common field = abc ))” 
} 


] /* attached conditions summary */ 


} /* attaching conditions to tables */ 
外 
{ 
# 再 稍稍 的 改进 一 下 执行 计划 
“refine plan”’: [ 
{ 
“table”: “sl” 
“pushed index condition”: “(sl . key2 < 1000000)”, 
“table condition attached”: “((sl . keyl > ’z) and (sl. key3 in 
Ca,’b’,’c)) and (sl. common field = ’abc’ ))” 
} 
] /x* refine plan */ 
} 
] /* steps */ 
} /* join optimization */ 
} 
{ 
”join execution”: { # execute 阶 段 
“select#”: 1, 
“steps”: [ 
] /* steps */ 
} /# join execution */ 
} 
] /* steps */ 


} 






































# 因 优 化 过 程 文本 太 多 而 丢弃 的 文本 字 节 大 小 ， 值 为 0 时 表示 并 没有 丢弃 
MISSING BYTES_BEYOND MAX MEM SIZE: 0 












































# 权限 字段 
INSUFFICIENT_PRIVILEGES: 0 


1 row in set (0. 00 sec) 


大 家 看 到 这 个 输出 的 第 一 感觉 就 是 这 文本 也 太 多 了 点 儿 吧 ， 其 实 这 只 是 优化 器 执行 过 程 中 的 一 小 部 分 ， 设 计 
MySQL 的 大 叔 可 能 会 在 之 后 的 版 本 中 添加 更 多 的 优化 过 程 信 息 。 不 过 杂乱 之 中 其 实 还 是 变 有 规律 的 ， 优 化 过 程 大 
致 分 为 了 三 个 阶段 : 


。 prepare 阶段 
。 optimize 阶段 
。 execute 阶段 


我 们 所 说 的 基于 成 本 的 优化 主要 集中 在 optimize 阶段 ， 对 于 单 表 查 询 来 说 ， 我 们 主要 关注 optimize 阶段 

的 “rows_estimation” 这 个 过 程 ， 这 个 过 程 深入 分 析 了 对 单 表 查 询 的 各 种 执行 方案 的 成 本 ; 对 于 多 表 连 接 查 询 来 
说 ,我 们 更 多 需要 关注 “considered_execution_plans” 这 个 过 程 ， 这 个 过 程 里 会 写 明 各 种 不 同 的 连接 方式 所 对 
应 的 成 本 。 反 正 优化 器 最 终 会 选择 成 本 最 低 的 那 种 方案 来 作为 最 终 的 执行 计划 ， 也 就 是 我 们 使 用 EXPLAIN 语句 所 
展现 出 的 那 种 方案 。 


如 果 有 小 伙伴 对 使 用 EXPLAIN 语句 展示 出 的 对 某 个 查询 的 执行 计划 很 不 理解 ， 大 家 可 以 尝试 使 用 optimizer 
trace 功能 来 详细 了 解 每 一 种 执行 方案 对 应 的 成 本 ， 相 信 这 个 功能 能 让 大 家 更 深入 的 了 解 MySQL 查询 优化 器 。 


18 第 18 章 调节 磁盘 和 CPU 的 矛盾 -InnoDB 的 Buffer 


Pool 


标签 : MySQL 是 怎样 运行 的 


18.1 缓存 的 重要 性 


通过 前 边 的 路 切 我 们 知道 ， 对 于 使 用 InnoDB 作为 存储 引擎 的 表 来 说 ， 不 管 是 用 于 存储 用 户 数据 的 索引 (包括 聚 
艇 索引 和 二 级 索引 ) ， 还 是 各 种 系统 数据 ， 都 是 以 页 的 形式 存放 在 表 空 间 中 的 ， 而 所 谓 的 表 空 间 只 不 过 是 

InnoDB 对 文件 系统 上 一 个 或 几 个 实际 文件 的 抽象 ， 也 就 是 说 我 们 的 数据 说 到 底 还 是 存储 在 磁盘 上 的 。 但 是 各 位 
也 都 知道 ， 磁 盘 的 速度 慢 的 跟 乌 龟 一 样 ， 怎 么 能 配 得 上 “ 快 如 风 ， 疾 如 电 " 的 CPU 呢 ?” 所 以 InnoDB 存储 引擎 在 处 
理 客户 端的 请 求 时 ， 当 需要 访问 某 个 页 的 数据 时 ， 就 会 把 完整 的 页 的 数据 全 部 加 载 到 内 存 中 ， 也 就 是 说 即使 我 们 
只 需要 访问 一 个 页 的 一 条 记录 ， 那 也 需要 先 把 整个 页 的 数据 加 载 到 内 存 中 。 将 整个 页 加 载 到 内 存 中 后 就 可 以 进行 
读 写 访问 了 ， 在 进行 完 读 写 访问 之 后 并 不 着 急 把 该 页 对 应 的 内 存 空间 释放 掉 ， 而 是 将 其 缓存 起 来 ， 这 样 将 来 有 
请 求 再 次 访问 该 页 面 时 ， 就 可 以 省 去 磁盘 10 的 开销 了 。 


18.2 InnoDB 的 Buffer Pool 


18.2.1 哈 是 个 Buffer Pool 


设计 InnoDB 的 大 叔 为 了 缓存 磁盘 中 的 页 ， 在 MySQL 服务 器 启动 的 时 候 就 向 操作 系统 申请 了 一 片 连续 的 内 存 ， 他 
们 给 这 片 内存 起 了 个 名 ， 叫 做 Buffer Pool (中 文 名 是 缓冲 池 ) 。 那 它 有 多 大 呢 ? 这 个 其 实 看 我 们 机 器 的 配 
置 ， 如 果 你 是 土豪 ， 你 有 5126 内 存 ， 你 分 配 个 几 百 G 作 为 Buffer Pool 也 可 以 啊 ， 当 然 你 要 是 没 那么 有 钱 ， 设 
置 小 点 也 行 呀 ~ 默认 情况 下 Buffer Pool 只 有 128M 大 小 。 当 然 如 果 你 嫌弃 这 个 128M 太 大 或 者 太 小 ， 可 以 在 启 
动 服务 器 的 时 候 配 置 innodb_buffer pool_size 参数 的 值 ， 它 表示 Buffer Pool 的 大 小 ， 就 像 这 样 : 














[server] 
innodb _ buffer pool size = 268435456 


其 中 ， 268435456 的 单位 是 字 节 ， 也 就 是 我 指定 Buffer Pool 的 大 小 为 256M 。 需 要 注意 的 是 ， Buffer Pool 也 
不 能 太 小 ， 最 小 值 为 5M ( 当 小 于 该 值 时 会 自动 设置 成 5M )。 


18.2.2 Buffer Pool 内 部 组 成 


Buffer Pool 中 默认 的 缓存 页 大 小 和 在 磁盘 上 默认 的 页 大 小 是 一 样 的 ， 都 是 16KB 。 为 了 更 好 的 管理 这 些 在 
Buffer Pool 中 的 缓存 页 ， 设 计 InnoDB 的 大 叔 为 每 一 个 缓存 页 都 创建 了 一 些 所 谓 的 控制 信息 ， 这 些 控制 信息 
包括 该 页 所 属 的 表 空间 编号 、 页 号 、 缓 存 页 在 Buffer Pool 中 的 地 址 、 链 表 节 点 信息 、 一 些 锁 信息 以 及 LSN 信息 
( 锁 和 LSN 我 们 之 后 会 具体 啼 明 ， 现 在 可 以 先 忽略 ) ， 当 然 还 有 一 些 别 的 控制 信息 ， 我 们 这 就 不 全 嘴 切 一 遍 了 ， 
挑 重要 的 说 嘛 ~ 


每 个 缓存 页 对 应 的 控制 信息 占用 的 内 存 大 小 是 相同 的 ， 我 们 就 把 每 个 页 对 应 的 控制 信息 占用 的 一 块 内 存 称 为 一 个 
控制 块 吧 ， 控 制 块 和 缓存 页 是 一 一 对 应 的 ， 它 们 都 被 存放 到 Buffer Pool 中 ， 其 中 控制 块 被 存放 到 Buffer Pool 
的 前 边 ， 缓 存 页 被 存放 到 Buffer Pool 后 边 ， 所 以 整个 Buffer Pool 对 应 的 内 存 空间 看 起 来 就 是 这 样 的 : 








这 是 向 操作 系统 申请 的 一 片 连续 的 内 存 空间 


ea 


控制 块 控制 块 控制 块 ”碎片 缓存 页 缓存 页 





哮 ? 控制 块 和 缓存 页 之 间 的 那个 碎片 是 个 什么 玩意 儿 ? 你 想 想 啊 ， 每 一 个 控制 块 都 对 应 一 个 缓存 页 ， 那 在 分 本 
足够 多 的 控制 块 和 缓存 页 后 ， 可 能 剩余 的 那 点 儿 空 间 不 够 一 对 控制 块 和 缓存 页 的 大 小 ， 自 然 就 用 不 到 嗪 ， 这 个 用 
不 到 的 那 点 儿 内 存 空 间 就 被 称 为 碎片 了 。 当 然 ， 如 果 你 把 Buffer Pool 的 大 小 设置 的 刚刚 好 的 话 ， 也 可 能 不 会 
产生 碎片 ~ 


小 贴 士 : 

每 个 控制 块 大 约 占用 缓存 页 大 小 的 5%， 在 MySQL5. 7. 21 这 个 版 本 中 ， 每 个 控制 块 占 用 的 大 小 是 808 字 节 。 
而 我 们 设置 的 innodb_buffer_ pool_size 并 不 包含 这 部 分 控制 块 占 用 的 内 存 空 间 大 小 ， 也 就 是 说 InnoDB 
在 为 Buffer Pool 向 操作 系统 申请 连续 的 内 存 空间 时 ， 这 片 连续 的 内 存 空 间 一 般 会 比 innodb_ buffer poo 
1]_ size 的 值 大 5% 左 右 。 









































18.2.3 free 链 表 的 管理 


当 我 们 最 初 启 动 MySQL 服务 器 的 时 候 ， 需 要 完成 对 Buffer Pool 的 初始 化 过 程 ， 就 是 先 向 操作 系统 申请 Buffer 
Pool 的 内 存 空 间 ， 然 后 把 它 划 分 成 若干 对 控制 块 和 缓存 页 。 但 是 此 时 并 没有 真实 的 磁盘 页 被 缓存 到 Buffer 

Pool 中 (因为 还 没有 用 到 ) ， 之 后 随 着 程序 的 运行 ， 会 不 断 的 有 磁盘 上 的 页 被 缓存 到 Buffer Pool 中 。 那 么 问 
题 来 了 ， 从 磁盘 上 读 取 一 个 页 到 Buffer Pool 中 的 时 候 该 放 到 哪个 缓存 页 的 位 置 呢 ? 或 者 说 怎么 区 分 Buffer 
Pool 中 哪些 缓存 页 是 空 朵 的 ， 哪 些 已 经 被 使 用 了 呢 ? 我 们 最 好 在 某 个 地 方 记录 一 下 Buffer Pool 中 哪些 缓存 页 是 可 
用 的 ， 这 个 时 候 缓存 页 对 应 的 控制 块 就 派 上 大 用 场 了 ， 我 们 可 以 把 所 有 空闲 的 缓存 页 对 应 的 控制 块 作为 一 个 节 
点 放 到 一 个 链表 中 ， 这 个 链表 也 可 以 被 称 作 free 链 表 (或 者 说 空闲 链表 ) 。 刚 刚 完成 初始 化 的 Buffer Pool 中 
所 有 的 缓存 页 都 是 空闲 的 ， 所 以 每 一 个 缓存 页 对 应 的 控制 块 都 会 被 加 入 到 free 链 表 中 ， 假 设 该 Buffer Pool 中 
可 容纳 的 缓存 页 数量 为 n ， 那 增加 了 free 链 表 的 效果 图 就 是 这 样 的 : 















这 个 是 free 链表 的 基 节 点 ， 
包含 链表 的 头 节点 、 尾 节点 指针 
以 及 链表 中 节点 数量 等 信息 


控制 块 中 包含 着 free 链 表 
的 pre 和 next 指针 


从 图 中 可 以 看 出 ， 我 们 为 了 管理 好 这 个 free 链 表 ， 特 意 为 这 个 链表 定义 了 一 个 基 节 点 ， 里 边 儿 包含 着 链表 的 头 
节点 地 址 ， 尾 节点 地 址 ， 以 及 当前 链表 中 节点 的 数量 等 信息 。 这 里 需要 注意 的 是 ,链表 的 基 节 点 占用 的 内 存 空间 
并 不 包含 在 为 Buffer Pool 申请 的 一 大 片 连续 内 存 空间 之 内 ， 而 是 单独 申请 的 一 块 内 存 空间 。 


小 贴 士 : 

链表 基 节 点 占用 的 内 存 空间 并 不 大 ， 在 MySQL5. 7. 21 这 个 版 本 里 ， 每 个 基 节 点 只 占用 40 字 节 大 小 。 后 边 
我 们 即将 介绍 许多 不 同 的 链表 ， 它 们 的 其 节点 和 free 链 表 的 基 节 点 的 内 存 分 配方 式 是 一 样 一 样 的 ， 都 是 
单独 申请 的 一 块 40 字 节 大 小 的 内 存 空间 ， 并 不 包含 在 为 Buffer Pool 申 请 的 一 大 片 连续 内 存 空间 之 内 。 


有 了 这 个 free 链 表 之 后 事 儿 就 好 办 了 ， 每 当 需 要 从 磁盘 中 加 载 一 个 页 到 Buffer Pool 中 时 ， 就 从 free 链 表 中 
取 一 个 空闲 的 缓存 页 ， 并 且 把 该 缓存 页 对 应 的 控制 块 的 信息 填 上 (就 是 该 页 所 在 的 表 空间 、 页 号 之 类 的 信 
息 ) ， 然 后 把 该 缓存 页 对 应 的 free 链 表 节点 从 链表 中 移 除 ， 表 示 该 缓存 页 已 经 被 使 用 了 ~ 

































































18.2.4 缓存 页 的 哈 希 处 理 


我 们 前 边 说 过 ， 当 我 们 需要 访问 某 个 页 中 的 数据 时 ， 就 会 把 该 页 从 磁盘 加 载 到 Buffer Pool 中 ， 如 果 该 页 已 经 
在 Buffer Pool 中 的 话 直接 使 用 就 可 以 了 。 那 么 问题 也 就 来 了 ， 我 们 怎么 知道 该 页 在 不 在 Buffer Pool 中 呢 ? 难 
不 成 需要 依次 遍历 Buffer Pool 中 各 个 缓存 页 么 ? 一 个 Buffer Pool 中 的 缓存 页 这 么 多 都 遍历 完 岂 不 是 要 累 死 ? 


再 回头 想 想 ， 我 们 其 实 是 根据 表 空 间 号 + 页 号 来 定位 一 个 页 的 ， 也 就 相当 于 表 空 间 号 + 页 号 是 一 个 key ， 
缓存 页 就 是 对 应 的 value ， 怎 么 通过 一 个 key 来 快速 找 着 一 个 value 呢 ? 哈哈， 那 肯 定 是 哈 希 表 号 ~ 


小 贴 士 : 
啥 ? 你 别 告诉 我 你 不 知道 哈 希 表 是 个 啥 ? 我 们 这 个 文章 不 是 讲 哈 希 表 的 ， 如 果 你 不 会 那 就 去 找 本 数据 结 
构 的 书 看 看 吧 一 啥 ?” 外头 的 书 看 不 懂 ? 别 急 ， 等 我 一 


所 以 我 们 可 以 用 表 空 间 号 + 页 号 作为 key ， 缓存 页 作为 value 创建 一 个 哈 希 表 ， 在 需要 访问 某 个 页 的 数据 


时 ， 先 从 哈 希 表 中 根据 表 空 间 号 + 页 号 看 看 有 没有 对 应 的 缓存 页 ， 如 果 有 ， 直 接 使 用 该 缓存 页 就 好 ， 如 果 没 
有 ， 那 就 从 free 链 表 中 选 一 个 空闲 的 缓存 页 ， 然 后 把 磁盘 中 对 应 的 页 加 载 到 该 缓存 页 的 位 置 。 


















































18.2.5 flush 链 表 的 管理 


如 果 我 们 修改 了 Buffer Pool 中 某 个 缓存 页 的 数据 ， 那 它 就 和 磁盘 上 的 页 不 一 致 了 ， 这 样 的 缓存 页 也 被 称 为 脏 
页 (英文 名 : dirty page ) 。 当 然 ， 最 简单 的 做 法 就 是 每 发 生 一 次 修改 就 立即 同步 到 磁盘 上 对 应 的 页 上 ， 但 是 
频繁 的 往 磁 盘 中 写 数 据 会 严重 的 影响 程序 的 性 能 (毕竟 磁盘 慢 的 像 乌 龟 一 样 ) 。 所 以 每 次 修改 缓存 页 后 ， 我 们 并 
不 着 急 立 即 把 修改 同步 到 磁盘 上 ， 而 是 在 未 来 的 某 个 时 间 点 进行 同步 ， 至 于 这 个 同步 的 时 间 点 我 们 后 边 会 作 说 明 
说 明 的 ， 现 在 先 不 用 管 哈 ~ 


但 是 如 果 不 立 即 同步 到 磁盘 的 话 ， 那 之 后 再 同步 的 时 候 我 们 怎么 知道 Buffer Pool 中 哪些 页 是 脏 页 ， 哪 些 页 从 
来 没 被 修改 过 呢 ” 总 不 能 把 所 有 的 缓存 页 都 同步 到 磁盘 上 吧 ， 假 如 Buffer Pool 被 设置 的 很 大 ， 比 方 说 3006 ， 
那 一 次 性 同步 这 么 多 数据 岂 不 是 要 慢 死 ! 所 以 ， 我 们 不 得 不 再 创建 一 个 仓储 脏 页 的 链表 ， 凡 是 修改 过 的 缓存 页 对 
应 的 控制 块 都 会 作为 一 个 节点 加 入 到 一 个 链表 中 ， 因 为 这 个 链表 节点 对 应 的 缓存 页 都 是 需要 被 刷新 到 磁盘 上 的 ， 
所 以 也 叫 flush 链 表 。 链 表 的 构造 和 free 链 表 差不多 ， 假 设 某 个 时 间 点 Buffer Pool 中 的 脏 页 数量 为 n ， 那 么 


对 应 的 flush 链 表 就 长 这 样 : 


















控制 块 中 包含 着 flush 链 表 
的 pre 和 next 指 针 


这 个 是 flush 链 表 的 基 节 点 ， 
包含 链表 的 头 节点 、 尾 节点 指针 
以 及 链表 中 节点 数量 等 信息 


18.2.6 LRU 链 表 的 管理 


18.2.6.1 缓存 不 够 的 窘境 


Buffer Pool 对 应 的 内 存 大 小 毕竟 是 有 限 的 ， 如 果 需 要 缓存 的 页 占用 的 内 存 大 小 超过 了 Buffer Pool 大 小 ， 也 就 
是 free 链 表 中 已 经 没有 多 余 的 空闲 缓存 页 的 时 候 宫 不 是 很 烛 钦 ， 发 生 了 这 样 的 事 儿 该 咋 办 ”当然 是 把 某 些 旧 的 
缓存 页 从 Buffer Pool 中 移 除 ， 然 后 再 把 新 的 页 放 进 来 ~ 那么 问题 来 了 ， 移 除 哪些 缓存 页 呢 ? 


为 了 回答 这 个 问题 ， 我 们 还 需要 回 到 我 们 设立 Buffer Pool 的 初衷 ， 我 们 就 是 想 减 少 和 磁盘 的 10 交互 ， 最 好 每 
次 在 访问 某 个 页 的 时 候 它 都 已 经 被 缓存 到 Buffer Pool 中 了 。 假 设 我 们 一 共 访 问 了 n 次 页 ， 那 么 被 访问 的 页 已 经 
在 缓存 中 的 次 数 除 以 n 就 是 所 谓 的 缓存 命中 率 ， 我 们 的 期 望 就 是 让 缓存 命中 率 越 高 越 好 ~ 从 这 个 角度 出 发 ， 
回想 一 下 我 们 的 微 信 聊 天 列表 ， 排 在 前 边 的 都 是 最 近 很 频繁 使 用 的 ， 排 在 后 边 的 自然 就 是 最 近 很 少 使 用 的 ， 假 如 
列表 能 容纳 下 的 联系 人 有 限 ， 你 是 会 把 最 近 很 频繁 使 用 的 留 下 还 是 最 近 很 少 使 用 的 留 下 呢 ? 废话 ， 当 然 是 留 下 最 
近 很 频繁 使 用 的 了 ~ 





18.2.6.2 简单 的 LRU 链 表 


管理 Buffer Pool 的 缓存 页 其 实 也 是 这 个 道理 ， 当 Buffer Pool 中 不 再 有 空闲 的 缓存 页 时 ， 就 需要 淘汰 掉 部 分 最 
近 很 少 使 用 的 缓存 页 。 不 过 ， 我 们 怎么 知道 哪些 缓存 页 最 近 频 繁 使 用 ， 哪 些 最 近 很 少 使 用 呢 ? 呵呵， 神奇 的 链表 
再 一 次 派 上 了 用 场 ， 我 们 可 以 再 创建 一 个 链表 ， 由 于 这 个 链表 是 为 了 按照 最 近 最 少 使 用 的 原则 去 淘汰 缓存 页 
的 ， 所 以 这 个 链表 可 以 被 称 为 LRU 链 表 (LRU 的 英文 全 称 : Least Recently Used) 。 当 我 们 需要 访问 其 个 页 时 ， 
可 以 这 样 处 理 LRU 链 表 : 


























。 如果 该 页 不 在 Buffer Pool 中 ， 在 把 该 页 从 磁盘 加 载 到 Buffer Pool 中 的 缓存 页 时 ， 就 把 该 缓存 页 对 应 的 
控制 块 作为 节点 塞 到 链表 的 头 部 。 
。 如果 该 页 已 经 缓存 在 Buffer Pool 中 ， 则 直接 把 该 页 对 应 的 控制 块 移动 到 LRU 链 表 的 头 部 。 











也 就 是 说 : 只 要 我 们 使 用 到 某 个 缓存 页 ， 就 把 该 缓存 页 调整 到 LRU 链 表 的 头 部 ， 这 样 LRU 链 表 尾部 就 是 最 近 最 少 
使 用 的 缓存 页 唆 ~ 所 以 当 Buffer Pool 中 的 空闲 缓存 页 使 用 完 时 ， 到 LRU 链 表 的 尾部 找 些 缓存 页 淘汰 就 OK 啦 ， 
真 简单 ， 喷 喷 .… 





18.2.6.3 划分 区 域 的 LRU 链 表 
高 兴 的 太 早 了 ， 上 边 的 这 个 简单 的 LRU 链 表 用 了 没 多 长 时 间 就 发 现 问题 了 ， 因 为 存在 这 两 种 比较 蓝 众 的 情况 : 





。 情况 一 : InnoDB 提供 了 一 个 看 起 来 比较 贴心 的 服务 一 一 预 读 (英文 名 : read ahead ) 。 所 谓 预 读 ， 就 
是 InnoDB 认为 执行 当前 的 请 求 可 能 之 后 会 读 取 某 些 页 面 ， 就 预先 把 它们 加 载 到 Buffer Pool 中 。 根 据 触 发 
方式 的 不 同 ， 预 读 又 可 以 细 分 为 下 边 两 种 : 

= 线性 预 读 


设计 InnoDB 的 大 叔 提供 了 一 个 系统 变量 innodb read ahead threshold ， 如 果 顺 序 访问 了 某 个 区 

( extent ) 的 页 面 超过 这 个 系统 变量 的 值 ， 就 会 触发 一 次 异步 读 取 下 一 个 区 中 全 部 的 页 面 到 Buffer 
Pool 的 请 求 ， 注 意 异步 读 取 意味 着 从 磁盘 中 加 载 这 些 被 预 读 的 页 面 并 不 会 影响 到 当前 工作 线程 的 正常 
执行 。 这 个 innodb_read ahead threshold 系统 变量 的 值 默认 是 56 ， 我 们 可 以 在 服务 器 启动 时 通过 启 
动 参数 或 者 服务 器 运行 过 程 中 直接 调整 该 系统 变量 的 值 ， 不 过 它 是 一 个 全 局 变量 ， 注 意 使 用 SET 
GLOBAL 命令 来 修改 哦 。 


小 贴 士 : 

InnoDB 是 怎么 实现 异步 读 取 的 呢 ? 在 Windows 或 者 Linux 平 台 上 ， 可 能 是 直接 调用 操作 系统 内 
核 提 供 的 AI0 接 口 ， 在 其 它 类 Unix 操 作 系统 中 ， 使 用 了 一 种 模拟 AI0 接 口 的 方式 来 实现 异步 读 
取 ， 其 实 就 是 让 别 的 线程 去 读 取 需要 预 读 的 页 面 。 如 果 你 读 不 懂 上 边 这 段 话 ， 那 也 就 没 必要 懂 
了 ， 和 我 们 主题 其 实 没 太 多 关系 ， 你 只 需要 知道 异步 读 取 并 不 会 影响 到 当前 工作 线程 的 正常 执 
行 就 好 了 。 其 实 这 个 过 程 涉及 到 操作 系统 如 何 处 理 I0 以 及 多 线程 的 问题 ， 找 本 操作 系统 的 书 看 
看 吧 ， 什 么 ? 操作 系统 的 书写 的 都 很 难 懂 ? 没关系 ， 等 我 一 


随机 预 读 




























































































如 果 Buffer Pool 中 已 经 缓存 了 某 个 区 的 13 个 连续 的 页 面 ， 不 论 这 些 页 面 是 不 是 顺序 读 取 的 ， 都 会 触发 
一 次 异步 读 取 本 区 中 所 有 其 的 页 面 到 Buffer Pool 的 请 求 。 设 计 InnoDB 的 大 叔 同 时 提供 了 
innodb_random read _ahead 系统 变量 ， 它 的 默认 值 为 OFF ， 也 就 意味 着 InnoDB 并 不 会 默认 开启 随机 
预 读 的 功能 ， 如 果 我 们 想 开启 该 功能 ， 可 以 通过 修改 启动 参数 或 者 直接 使 用 SET GLOBAL 命令 把 该 变量 
的 值 设置 为 ON 。 


预 读 本 来 是 个 好 事 儿 ， 如 果 预 读 到 Buffer Pool 中 的 页 成 功 的 被 使 用 到 ， 那 就 可 以 极 大 的 提高 语句 执 
行 的 效率 。 可 是 如 果 用 不 到 呢 ? 这 些 预 读 的 页 都 会 放 到 LRU 链表 的 头 部 ， 但 是 如 果 此 时 Buffer Pool 的 
容量 不 太 大 而 且 很 多 预 读 的 页 面 都 没有 用 到 的 话 ， 这 就 会 导致 处 在 LRU 链 表 尾部 的 一 些 缓存 页 会 很 快 的 
被 淘汰 掉 ， 也 就 是 所 谓 的 劣 币 驱逐 良 币 ， 会 大 大 降低 缓 仔 命 中 率 。 
。 情况 二 : 有 的 小 伙伴 可 能 会 写 一 些 需 要 扫描 全 表 的 查询 语句 (比如 没有 建立 合适 的 索引 或 者 压根 儿 没有 
WHERE 子 句 的 查询 ) 。 











扫描 全 表意 味 着 什么 ”意味 着 将 访问 到 该 表 所 在 的 所 有 页 ! 假设 这 个 表 中 记录 非常 多 的 话 ， 那 该 表 会 占用 特 
别 多 的 页 ， 当 需要 访问 这 些 页 时 ， 会 把 它们 统统 都 加 载 到 Buffer Pool 中 ， 这 也 就 意味 着 吧 哪 一 下 ， 
Buffer Pool 中 的 所 有 页 都 被 换 了 一 次 血 ， 其 他 查询 语句 在 执行 时 又 得 执行 一 次 从 磁盘 加 载 到 Buffer Pool 
的 操作 。 而 这 种 全 表 扫 描 的 语句 执行 的 频率 也 不 高 ， 每 次 执行 都 要 把 Buffer Pool 中 的 缓存 页 换 一 次 血 ， 这 
严重 的 影响 到 其 他 查询 对 Buffer Pool 的 使 用 ， 从 而 大 大 降低 了 缓存 命中 率 。 


总 结 一 下 上 边 说 的 可 能 降低 Buffer Pool 的 两 种 情况 : 


。 加 载 到 Buffer Pool 中 的 页 不 一 定 被 用 到 。 
。 如 果 非 常 多 的 使 用 频率 偏 低 的 页 被 同时 加 载 到 Buffer Pool 时 ， 可 能 会 把 那些 使 用 频率 非常 高 的 页 从 
Buffer Pool 中 淘汰 掉 。 


因为 有 这 两 种 情况 的 存在 ， 所 以 设计 InnoDB 的 大 叔 把 这 个 LRU 链 表 按照 一 定 比例 分 成 两 截 ， 分 别 是 : 


。 一 部 分 人 存储 使 用 频率 非常 高 的 缓存 页 ， 所 以 这 一 部 分 链表 也 叫做 热 数据 ， 或 者 称 young 区 域 。 
。 另 一 部 分 存储 使 用 频率 不 是 很 高 的 缓存 页 ， 所 以 这 一 部 分 链表 也 叫做 冷 数据 ， 或 者 称 old 区 域 。 


为 了 方便 大 家 理解 ， 我 们 把 示意 图 做 了 简化 ， 各 位 领会 精神 就 好 : 








LRU 链 表示 意图 


这 个 是 LRU 链 表 的 基 节 点 ， 


人 和 部 分 是 热 数据 ， 也 叫 young 区 域 Sp 





大 家 要 特别 注意 一 个 事 儿 : 我 们 是 按照 某 个 比例 将 LRU 链 表 分 成 两 半 的 ， 不 是 某 些 节点 固定 是 young 区 域 的 ， 某 
些 节 点 固定 是 old 区 域 的 ， 随 着 程序 的 运行 ， 某 个 节点 所 属 的 区 域 也 可 能 发 生变 化 。 那 这 个 划分 成 两 截 的 比例 怎么 


确定 呢 ? 对 于 InnoDB 存储 引擎 来 说 ， 我 们 可 以 通过 查看 系统 变量 innodb_o1d_blocks_pct 的 值 来 确定 o1d 区 域 
在 LRU 链 表 中 所 占 的 比例 ， 比 方 说 这 样 : 


mysql> SHOW VARIABLES LIKE ’ innodb old blocks pct ; 





Variable name Value 





innodb old blocks pct | 37 














1 row in set (0.01 sec) 





从 结果 可 以 看 出 来 ， 默 认 情况 下 ， ol1d 区 域 在 LRU 链 表 中 所 占 的 比例 是 37% ， 也 就 是 说 o1d 区 域 大 约 占 LRU 链 
表 的 3/8 。 这 个 比例 我 们 是 可 以 设置 的 ， 我 们 可 以 在 启动 时 修改 innodb_old_blocks_pct 参数 来 控制 old 区 域 
在 LRU 链 表 中 所 占 的 比例 ， 比 方 说 这 样 修 改 配置 文件 : 


[server] 
innodb old _ blocks pct = 40 


这 样 我 们 在 启动 服务 器 后 ， old 区 域 占 LRU 链 表 的 比例 就 是 40% 。 当 然 ， 如 果 在 服务 器 运行 期 间 ， 我 们 也 可 以 
修改 这 个 系统 变量 的 值 ， 不 过 需要 注意 的 是 ， 这 个 系统 变量 属于 全 局 变量 ， 一 经 修改 ， 会 对 所 有 客户 端 生效 ， 
所 以 我 们 只 能 这 样 修改 : 

















SET GLOBAL innodb old blocks pct = 40; 


有 了 这 个 被 划分 成 young 和 old 区 域 的 LRU 链表 之 后 ， 设 计 InnoDB 的 大 叔 就 可 以 针对 我 们 上 边 提 到 的 两 种 可 能 
降低 缓存 命中 率 的 情况 进行 优化 了 : 


。 针对 预 读 的 页 面 可 能 不 进行 后 续 访 情况 的 优化 


设计 InnoDB 的 大 叔 规定 ， 当 磁盘 上 的 某 个 页 面 在 初次 加 载 到 Buffer Pool 中 的 某 个 缓存 页 时 ， 该 缓存 页 对 应 
的 控制 块 会 被 放 到 old 区 域 的 头 部 。 这 样 针对 预 读 到 Buffer Pool 却 不 进行 后 续 访问 的 页 面 就 会 被 逐渐 从 
old 区 域 逐 出 ， 而 不 会 影响 young 区 域 中 被 使 用 比较 频繁 的 缓存 页 。 

针对 全 表 扫 描 时 ， 短 时 间 内 访问 大 量 使 用 频率 非常 低 的 页 面 情况 的 优化 


在 进行 全 表 扫 描 时 ， 虽 然 首次 被 加 载 到 Buffer Pool 的 页 被 放 到 了 o1d 区 域 的 头 部 ， 但 是 后 续 会 被 马上 访问 
到 ， 每 次 进行 访问 的 时 候 又 会 把 该 页 放 到 young 区 域 的 头 部 ， 这 样 仍然 会 把 那些 使 用 频率 比较 高 的 页 面 给 顶 
下 去 。 有 同学 会 想 : 可 不 可 以 在 第 一 次 访问 该 页 面 时 不 将 其 从 o1d 区 域 移动 到 young 区 域 的 头 部 ， 后 续 访问 
时 再 将 其 移动 到 young 区 域 的 头 部 。 回 答 是 : 行 不 通 ! 因为 设计 InnoDB 的 大 叔 规定 每 次 去 页 面 中 读 取 一 条 
记录 时 ， 都 算是 访问 一 次 页 面 ， 而 一 个 页 面 中 可 能 会 包含 很 多 条 记录 ， 也 就 是 说 读 取 完 某 个 页 面 的 记录 就 相 
当 于 访问 了 这 个 页 面 好 多 次 。 


咋 办 ? 全 表 扫 描 有 一 个 特点 ， 那 就 是 它 的 执行 频率 非常 低 ， 谁 也 不 会 没事 儿 老 在 那 写 全 表 扫 描 的 语句 玩 ， 而 
且 在 执行 全 表 扫 描 的 过 程 中 ， 即 使 某 个 页 面 中 有 很 多 条 记录 ， 也 就 是 去 多 次 访问 这 个 页 面 所 花费 的 时 间 也 是 
非常 少 的 。 所 以 我 们 只 需要 规定 ， 在 对 某 个 处 在 old 区 域 的 缓存 页 进行 第 一 次 访问 时 就 在 它 对 应 的 控制 块 中 
记录 下 来 这 个 访问 时 间 ， 如 果 后 续 的 访问 时 间 与 第 一 次 访问 的 时 间 在 某 个 时 间 间 隔 内 ， 那 么 该 页 面 就 不 会 被 
从 old 区 域 移动 到 young 区 域 的 头 部 ， 否 则 将 它 移动 到 young 区 域 的 头 部 。 上 述 的 这 个 间隔 时 间 是 由 系统 变量 
innodb old blocks time 控制 的 ， 你 看 : 


ysql> SHOW VARIABLES LIKE ’ innodb old blocks time’: 





Variable name | Value | 








innodb old blocks time | 1000 | 





1 row in set (0.01 sec) 


这 个 innodb_old_blocks_time 的 默认 值 是 1000 ， 它 的 单位 是 毫秒 ， 也 就 意味 着 对 于 从 磁盘 上 被 加 载 到 
LRU 链表 的 o1d 区 域 的 某 个 页 来 说 ， 如 果 第 一 次 和 最 后 一 次 访问 该 页 面 的 时 间 间 隔 小 于 1s (很 明显 在 一 次 
全 表 扫 描 的 过 程 中 ， 多 次 访问 一 个 页 面 中 的 时 间 不 会 超过 1s ) ， 那 么 该 页 是 不 会 被 加 入 到 young 区 域 的 ~ 
当然 , 像 innodb_old_blocks_pct 一 样 ， 我 们 也 可 以 在 服务 器 启动 或 运行 时 设置 innodb_old blocks_time 
的 值 ， 这 里 就 不 袭 述 了 ， 你 自己 试 试 吧 ~ 这 里 需要 注意 的 是 ， 如 果 我 们 把 innodb_o1d_blocks_time 的 值 设 
置 为 0 ， 那 么 每 次 我 们 访问 一 个 页 面 时 就 会 把 该 页 面 放 到 young 区 域 的 头 部 。 


综 上 所 述 ， 正 是 因为 将 LRU 链表 划分 为 young 和 old 区 域 这 两 个 部 分 ， 又 添加 了 innodb_old_blocks_time 这 个 


系统 变量 ， 才 使 得 预 读 机 制 和 全 表 扫描 造成 的 缓存 命中 率 降低 的 问题 得 到 了 遏制 ， 因 为 用 不 到 的 预 读 页 面 以 及 全 
表 扫 描 的 页 面 都 只 会 被 放 到 old 区 域 ， 而 不 影响 young 区 域 中 的 缓存 页 。 


18.2.6.4 更 进一步 优化 LRU 链 表 


LRU 链 表 这 就 说 完了 么 ?没有 ， 早 着 呢 ~ 对 于 young 区 域 的 缓存 页 来 说 ， 我 们 每 次 访问 一 个 缓存 页 就 要 把 它 移 
动 到 LRU 链 表 的 头 部 ， 这 样 开销 是 不 是 太 大 啦 ， 毕 竟 在 young 区 域 的 缓存 页 都 是 热点 数据 ， 也 就 是 可 能 被 经 常 访 
问 的 ， 这 样 频繁 的 对 LRU 链 表 进行 节点 移动 操作 是 不 是 不 太 好 啊 ” 是 的 ， 为 了 解决 这 个 问题 其 实 我 们 还 可 以 提出 











一 些 优化 策略 ， 比 如 只 有 被 访问 的 缓存 页 位 于 young 区 域 的 1/4 的 后 边 ， 才 会 被 移动 到 LRU 链 表 头 部 ， 这 样 就 
可 以 降低 调整 LRU 链 表 的 频率 ， 从 而 提升 性 能 (也 就 是 说 如 果 某 个 缓存 页 对 应 的 节点 在 young 区 域 的 1/4 中 ， 
再 次 访问 该 缓存 页 时 也 不 会 将 其 移动 到 LRU 链表 头 部 ) 。 


小 贴 士 : 

我 们 之 前 介绍 随机 预 读 的 时 候 曾 说， 如 果 Buffer Pool 中 有 某 个 区 的 13 个 连续 页 面 就 会 触发 随机 预 读 ， 
这 其 实 是 不 严谨 的 (不 幸 的 是 MySQL 文 档 就 是 这 么 说 的 [ 摊 手 1 ) ， 其 实 还 要 求 这 13 个 页 面 是 非常 热 的 页 
面 ， 所 谓 的 非常 热 ， 指 的 是 这 些 页 面 在 整个 young 区 域 的 头 1/4 处 。 


还 有 没有 什么 别 的 针对 LRU 链 表 的 优化 措施 呢 ” 当然 有 啊 ， 你 要 是 好 好 学 ， 写 篇 论文 ， 写 本 书 都 不 是 问题 ， 可 是 
这 毕竟 是 一 个 介绍 MySQL 基础 知识 的 文章 ， 再 说 多 了 篇 幅 就 受 不 了 了 ， 也 影响 大 家 的 阅读 体验 ， 所 以 适可而止， 
想 了 解 更 多 的 优化 知识 ， 自 己 去 看 源码 或 者 更 多 关于 LRU 链表 的 知识 ~ 但 是 不 论 怎么 优化 ， 干 万 别 忘 了 我 们 
的 初 心 : 尽量 高 效 的 提高 Buffer Pool 的 缓存 命中 率 。 

































































18.2.7 其 他 的 一 些 链 表 


为 了 更 好 的 管理 Buffer Pool 中 的 缓存 页 ， 除 了 我 们 上 边 提 到 的 一 些 措施 ， 设 计 InnoDB 的 大 叔 们 还 引进 了 其 他 
的 一 些 链表 ， 比 如 unzip LRU 链 表 用 于 管理 解压 页 ， zip clean 链 表 用 于 管理 没有 被 解压 的 压缩 页 ， zip 
free 数 组 中 每 一 个 元 素 都 代表 一 个 链表 ， 它 们 组 成 所 谓 的 伙伴 系统 来 为 压缩 页 提供 内 存 空间 等 等 ， 反 正 是 为 了 
更 好 的 管理 这 个 Buffer Pool 引入 了 各 种 链表 或 其 他 数据 结构 ， 具 体 的 使 用 方式 就 不 喝 呈 了 ， 大 家 有 兴趣 深究 的 
骨 去 找 些 更 深 的 书 或 者 直接 看 源 代码 吧 ， 也 可 以 直接 来 找 我 哈 ~ 


小 贴 士 : 
我 们 压根 儿 没 有 深入 啼 明 过 InnoDB 中 的 压缩 页 ， 对 上 边 的 这 些 链表 也 只 是 为 了 完整 性 顺便 提 一 下 ， 如 果 
你 看 不 懂 千 万 不 要 抑郁 ， 因 为 我 压根 儿 就 没 打 算 向 大 家 介绍 它们 。 















































18.2.8 刷新 脏 页 到 磁盘 


后 台 有 专门 的 线程 每 隔 一 段 时 间 负 责 把 脏 页 刷新 到 磁盘 ， 这 样 可 以 不 影响 用 户 线程 处 理 正常 的 请 求 。 主 要 有 两 种 
刷新 路 径 : 


。 从 LRU 链 表 的 冷 数据 中 刷新 一 部 分 页 面 到 磁盘 。 


后 台 线 程 会 定时 从 LRU 链 表 尾部 开始 扫描 一 些 页 面 ， 扫 描 的 页 面 数 量 可 以 通过 系统 变量 
innodb_lru_scan_depth 来 指定 ， 如 果 从 里 边 儿 发 现 脏 页， 会 把 它们 刷新 到 磁盘 。 这 种 刷新 页 面 的 方式 被 称 
之 为 BUF FLUSH LRU 。 

。 从 flush 链表 中 刷新 一 部 分 页 面 到 磁盘 。 


后 台 线 程 也 会 定时 从 flush 链 表 中 刷新 一 部 分 页 面 到 磁盘 ， 刷 新 的 速率 取决 于 当时 系统 是 不 是 很 繁忙 。 这 种 
刷新 页 面 的 方式 被 称 之 为 BUF_FLUSH LIST 。 


有 时 候 后 台 线 程 刷新 脏 页 的 进度 比较 慢 ， 导 致 用 户 线程 在 准备 加 载 一 个 磁盘 页 到 Buffer Pool 时 没有 可 用 的 缓存 
页 ， 这 时 就 会 尝试 看 看 LRU 链 表 尾部 有 没有 可 以 直接 释放 掉 的 未 修改 页 面 ， 如 果 没有 的 话 会 不 得 不 将 LRU 链 表 尾 
部 的 一 个 脏 页 同步 刷新 到 磁盘 (和 磁盘 交互 是 很 慢 的 ， 这 会 降低 处 理 用 户 请 求 的 速度 ) 。 这 种 刷新 单个 页 面 到 磁 
盘 中 的 刷新 方式 被 称 之 为 BUF FLUSH SINGLE PAGE 。 


当然 ， 有 时 候 系统 特别 繁忙 时 ， 也 可 能 出 现 用 户 线程 批量 的 从 flush 链 表 中 刷新 脏 页 的 情况 ， 很 显然 在 处 理 用 户 
请 求 过 程 中 去 刷新 脏 页 是 一 种 严重 降低 处 理 速 度 的 行为 (毕竟 磁盘 的 速度 满 的 要 死 ) ， 这 属于 一 种 迫不得已 的 情 
况 ， 不 过 这 得 放 在 后 边 踪 明 redo 日 志 的 checkpoint 时 说 了 。 




















18.2.9 多 个 Buffer Pool 实 例 


我 们 上 边 说 过 ， Buffer Pool 本 质 是 InnoDB 向 操作 系统 申请 的 一 块 连续 的 内 存 空间 ， 在 多 线程 环境 下 ， 访 问 
Buffer Pool 中 的 各 种 链表 都 需要 加 锁 处 理喻 的 ， 在 Buffer Pool 特别 大 而 且 多 线程 并 发 访问 特别 高 的 情况 下 ， 
单一 的 Buffer Pool 可 能 会 影响 请 求 的 处 理 速 度 。 所 以 在 Buffer Pool 特别 大 的 时 候 ， 我 们 可 以 把 它们 拆 分 成 若 
干 个 小 的 Buffer Pool ， 每 个 Buffer Pool 都 称 为 一 个 实例 ， 它 们 都 是 独立 的 ， 独 立 的 去 申请 内 存 空 间 ， 独 立 
的 管理 各 种 链表 ， 独 立 的 吧 啦 吧 啦 ， 所 以 在 多 线程 并 发 访问 时 并 不 会 相互 影响 ， 从 而 提高 并 发 处 理 能 力 。 我 们 可 
以 在 服务 器 启动 的 时 候 通 过 设置 innodb_buffer_pool_instances 的 值 来 修改 Buffer Pool 实例 的 个 数 ， 比 方 说 
这 样 : 


[serverj 
innodb _ buffer pool instances = 2 


羊 就 表明 我 们 要 创建 2 个 Buffer Pool 实例 ， 示 意图 就 是 这 样 : 


诸 
= 
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小 贴 士 : 
为 了 简便 ， 我 只 把 各 个 链表 的 基 节 点 画 出 来 了 ， 大 家 应 该 心里 清楚 这 些 链 表 的 节点 其 实 就 是 每 个 缓存 页 
对 应 的 控制 块 ! 


那 每 个 Buffer Pool 实例 实际 占 多 少 内 存 空间 呢 ? 其实 使 用 这 个 公式 算出 来 的 : 



























































innodb buffer pool size/innodb buffer pool instances 
也 就 是 总 共 的 大 小 除 以 实例 的 个 数 ， 结 果 就 是 每 个 Buffer Pool 实例 占用 的 大 小 。 


不 过 也 不 是 说 Buffer Pool 实例 创建 的 越 多 越 好 ， 分 别管 理 各 个 Buffer Pool 也 是 需要 性 能 开销 的 ， 设 计 
InnoDB 的 大 叔 们 规定 : 当 innodb_buffer_pool_size 的 值 小 于 1G 的 时 候 设 置 多 个 实例 是 无 效 的 ，InnoDB 会 默认 把 
innodb_buffer_pool_instances 的 值 修改 为 1。 而 我 们 鼓励 在 Buffer Pool 大 小 或 等 于 1G 的 时 候 设置 多 个 Buffer 
Pool 实例 。 


18.2.10 innodb_ buffer_ pool chunk_ size 


在 MySQL 5.7.5 之 前 ， Buffer Pool 的 大 小 只 能 在 服务 器 启动 时 通过 配置 innodb buffer pool size 启动 参数 
来 调整 大 小 ， 在 服务 器 运行 过 程 中 是 不 允许 调整 该 值 的 。 不 过 设计 MySQL 的 大 叔 在 5. 7. 5 以 及 之 后 的 版 本 中 支持 
了 在 服务 器 运行 过 程 中 调整 Buffer Pool 大 小 的 功能 ， 但 是 有 一 个 问题 ， 就 是 每 次 当 我 们 要 重新 调整 Buffer 
Pool 大 小 时 ， 都 需要 重新 向 操作 系统 申请 一 块 连续 的 内 存 空间 ， 然 后 将 旧 的 Buffer Pool 中 的 内 容 复制 到 这 一 
块 新 空间 ， 这 是 极其 耗 时 的 。 所 以 设计 MySQL 的 大 叔 们 决定 不 再 一 次 性 为 某 个 Buffer Pool 实例 向 操作 系统 申请 
一 大 片 连续 的 内 存 空间 ， 而 是 以 一 个 所 谓 的 chunk 为 单位 向 操作 系统 申请 空间 。 也 就 是 说 一 个 Buffer Pool 实例 
其 实 是 由 若干 个 chunk 组 成 的 ， 一 个 chunk 就 代表 一 片 连续 的 内 存 空间 ， 里 边 儿 包含 了 若干 缓存 页 与 其 对 应 的 控 
制 块 ， 画 个 图 表示 就 是 这 样 : 
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re ro 症 本 eve 总 四 和 


上 图 代表 的 Buffer Pool 就 是 由 2 个 实例 组 成 的 ， 每 个 实例 中 又 包含 2 个 chunk 。 


正 是 因为 发 明了 这 个 chunk 的 概念 ， 我 们 在 服务 器 运行 期 间 调整 Buffer Pool 的 大 小 时 就 是 以 chunk 为 单位 增 
加 或 者 删除 内 存 空间 ， 而 不 需要 重新 向 操作 系统 申请 一 片 大 的 内 存 ， 然 后 进行 缓存 页 的 复制 。 这 个 所 谓 的 chunk 
的 大 小 是 我 们 在 启动 操作 MySQL 服务 器 时 通过 innodb_buffer_pool_chunk_size 启动 参数 指定 的 ， 它 的 默认 值 
是 134217728 ， 也 就 是 128M 。 不 过 需要 注意 的 是 ，innodb_buffer_pool_chunk_size 的 值 只 能 在 服务 器 启动 时 指 
定 ， 在 服务 器 运行 过 程 中 是 不 可 以 修改 的 。 


小 贴 士 : 

为 什么 不 允许 在 服务 器 运行 过 程 中 修改 innodb buffer pool chunk size 的 值 ? 还 不 是 因为 innodb buff 
er_pool_chunk_size 的 值 代表 InnoDB 向 操作 系统 申请 的 一 片 连续 的 内 存 空 间 的 大 小 ， 如 果 你 在 服务 器 运 
行 过 程 中 修改 了 该 值 ， 就 意味 着 要 重新 向 操作 系统 申请 连续 的 内 存 空间 并 且 将 原先 的 缓存 页 和 它们 对 应 
的 控制 块 复制 到 这 个 新 的 内 存 空间 中 ， 这 是 十 分 耗 时 的 操作 ! 

另外 ， 这 个 innodb buffer pool chunk size 的 值 并 不 包含 缓存 页 对 应 的 控制 块 的 内 存 空 间 大 小 ， 所 以 
实际 上 InnoDB 向 操作 系统 申请 连续 内 存 空间 时 ， 每 个 chunk 的 大 小 要 比 innodb _ buffer pool] chunk size 
的 值 大 一 些 ， 约 5%。 


chunk1: 












































18.2.11 配置 Buffer Pool 时 的 注意 事项 


innodb_ buffer pool size 必须 是 innodb buffer pool chunk size X innodb buffer pool _ instances 的 


倍数 (这 主要 是 想 保证 每 一 个 Buffer Pool 实例 中 包含 的 chunk 数量 相同 ) 。 





假设 我 们 指定 的 innodb buffer pool chunk size 的 值 是 128M ， innodb _ buffer pool instances 的 值 是 
16 ， 那 么 这 两 个 值 的 乘积 就 是 26 ， 也 就 是 说 innodb_buffer_pool_size 的 值 必须 是 26 或 者 26 的 整数 
倍 。 比 方 说 我 们 在 启动 MySQL 服务 器 是 这 样 指定 启动 参数 的 : 











mysqld --innodb-buffer-poo1-size=8G --innodb-buffer-pool-~instances=16 


默认 的 innodb_buffer_pool_chunk_size 值 是 128M ， 指 定 的 innodb_buffer_pool_instances 的 值 是 16 ， 
所 以 innodb_buffer_pool_size 的 值 必须 是 26 或 者 26 的 整数 倍 ， 上 边 例 子 中 指定 的 
innodb_buffer_pool_size 的 值 是 86 ， 符 合 规定 ， 所 以 在 服务 器 启动 完成 之 后 我 们 查看 一 下 该 变量 的 值 就 
是 我 们 指定 的 86 (8589934592 字 节 ) : 





ysql> show variables like ’ innodb buffer pool size ; 





Variable name Value 





innodb buffer pool size | 8589934592 











1 row in set (0.00 sec) 


如 果 我 们 指定 的 innodb_buffer_pool_size 大 于 2G 并 且 不 是 26 的 整数 倍 ， 那 么 服务 器 会 自动 的 把 
innodb_buffer_ pool size 的 值 调整 为 26 的 整数 倍 ， 比 方 说 我 们 在 启动 服务 器 时 指定 的 
innodb buffer pool size 的 值 是 9G : 








mysqld --innodb-buffer-poo1l-size=9G -innodb-buffer-pool-instances=16 
那么 服务 器 会 自动 把 innodb_buffer_ pool _ size 的 值 调整 为 106 (10737418240 字 节 ) ， 不 信和 你 看 : 


mysql> show variables like "innodb buffer pool size’: 





Variable name Value 





innodb buffer pool size | 10737418240 











| 
| 
1 row in set (0.01 sec) 


。 如 果 在 服务 器 启动 时 ， innodb puffer pool chunk size X innodb buffer pool instances 的 值 已 经 大 
于 innodb buffer pool size 的 值 ， 那 么 innodb buffer _ pool chunk size 的 值 会 被 服务 器 自动 设置 为 
innodb buffer pool size/innodb buffer pool instances 的 值 。 


比方 说 我 们 在 启动 服务 器 时 指定 的 innodb_buffer_pool_size 的 值 为 26 ， 
innodb buffer pool instances 的 值 为 16， innodb buffer pool chunk size 的 值 为 256M : 

















mysqld --innodb-buffer-pool-size=2G --innodb-buffer-pool-instances=16 --innodb-buffe 
r-pool-chunk-size=256M 


由 于 256M X 16 = 46， 而 46 >2G ， 所 以 innodb_buffer pool chunk_size 值 会 被 服务 器 改写 为 
innodb_buffer _pool size/innodb_buffer_pool_instances 的 值 ， 也 就 是 : 26/16 = 128M (134217728 字 


节 ) ， 不 信 你 看 : 





mysql> show variables like ’ innodb buffer pool size” ; 





Variable name Value 





innodb buffer pool size | 2147483648 











1 row in set (0.01 sec) 


ysql> show variables like ’ innodb buffer pool chunk size’: 





Variable name | Value 


innodb buffer pool chunk size | 134217728 

















1 row in set (0.00 sec) 


18.2.12 Buffer Pool 中 存储 的 其 它 信息 

Buffer Pool 的 缓存 页 除了 用 来 缓存 磁盘 上 的 页 面 以 外 ， 还 可 以 存储 锁 信息 、 自 适应 哈 希 索引 等 信息 ， 这 些 内 容 
等 我 们 之 后 遇 到 了 再 详细 讨论 哈 ~ 

18.2.13 查看 Buffer Pool 的 状态 信息 


设计 MySQL 的 大 叔 贴 心 的 给 我 们 提供 了 SHOW ENGINE INNODB STATUS 语句 来 查看 关于 InnoDB 存储 引擎 运行 过 程 
中 的 一 些 状态 信息 ， 其 中 就 包括 Buffer Pool 的 一 些 信息 ， 我 们 看 下 (为 了 突出 重点 ， 我 们 只 把 输出 中 关于 
Buffer Pool 的 部 分 提取 了 出 来 ) : 


mysql> SHOW ENGINE INNODB STATUSANG 





(... 省 略 前 边 的 许多 状态 ) 





BUFFER POOL AND MEMORY 





Total memory allocated 13218349056; 

Dictionary memory allocated 4014231 

Buffer pool size 786432 

Free buffers 8174 

Database pages 710576 

01d database pages 262143 

Modified db pages 124941 

Pending reads 0 

Pending writes: LRU 0, flush list 0, single page 0 

Pages made young 6195930012, not young 78247510485 

108. 18 youngs/s, 226.15 non-youngs/s 

Pages read 2748866728, created 29217873, written 4845680877 

160. 77 reads/s, 3.80 creates/s, 190.16 writes/s 

Buffer pool hit rate 956 / 1000, young-making rate 30 / 1000 not 605 / 1000 
Pages read ahead 0.00/s, evicted without access 0.00/s, Random read ahead 0.00/s 
LRU len: 710576, unzip LRU len: 118 

I/0 sum[134264]:cur[144], unzip sum[16]:cur[0] 





(... 省 略 后 边 的 许多 状态 ) 








mysql> 
我 们 来 详细 看 一 下 这 里 边 的 每 个 值 都 代表 什么 意思 : 


。 Total memory allocated : 代表 Buffer Pool 向 操作 系统 申请 的 连续 内 存 空间 大 小 ， 包 括 全 部 控制 块 、 缓 
存 页 、 以 及 碎片 的 大 小 。 

。 Dictionary memory allocated : 为 数据 字典 信息 分 配 的 内 存 空间 大 小 ， 注 意 这 个 内 存 空间 和 Buffer Pool 
没 哈 关系 ， 不 包括 在 Total memory allocated 中 。 

。 Buffer pool size : 代表 该 Buffer Pool 可 以 容纳 多 少 缓存 页 ， 注 意 ,单位 是 页 ! 

。 Free buffers : 代表 当前 Buffer Pool 还 有 多 少 空闲 缓存 页 ， 也 就 是 free 链 表 中 还 有 多 少 个 节点 。 

。 Database pages : 代表 LRU 链表 中 的 页 的 数量 ， 包 含 young 和 ol1d 两 个 区 域 的 节点 数量 。 

。 01d database pages : 代表 LRU 链表 old 区 域 的 节点 数量 。 

。 Modified db pages : 代表 脏 页 数量 ， 也 就 是 flush 链 表 中 节点 的 数量 。 

。 Pending reads : 正在 等 待 从 磁盘 上 加 载 到 Buffer Pool 中 的 页 面 数 量 。 








当 准 备 从 磁盘 中 加 载 某 个 页 面 时 ， 会 先 为 这 个 页 面 在 Buffer Pool 中 分 配 一 个 缓存 页 以 及 它 对 应 的 控制 块 ， 
然后 把 这 个 控制 块 添加 到 LRU 的 old 区 域 的 头 部 ， 但 是 这 个 时 候 真正 的 磁盘 页 并 没有 被 加 载 进 来 ， Pending 
reads 的 值 会 跟着 加 1。 

Pending writes LRU : 即将 从 LRU 链表 中 刷新 到 磁盘 中 的 页 面 数 量 。 

Pending writes flush list : 即将 从 flush 链表 中 刷新 到 磁盘 中 的 页 面 数量 。 

Pending writes single page : 即将 以 单个 页 面 的 形式 刷新 到 磁盘 中 的 页 面 数量 。 


。 Pages made young : 代表 LRU 链表 中 曾经 从 old 区 域 移动 到 young 区 域 头 部 的 节点 数量 。 


这 里 需要 注意 ， 一 个 节点 每 次 只 有 从 old 区 域 移动 到 young 区 域 头 部 时 才 会 将 Pages made young 的 值 加 
1， 也 就 是 说 如 果 该 节点 本 来 就 在 young 区 域 ， 由 于 它 符合 在 young 区 域 1/4 后 边 的 要 求 ， 下 一 次 访问 这 个 页 
面 时 也 会 将 它 移 动 到 young 区 域 头 部 ， 但 这 个 过 程 并 不 会 导致 Pages made young 的 值 加 1。 

。 Page made not young : 在 将 innodb old blocks time 设置 的 值 大 于 0 时 ， 首 次 访问 或 者 后 续 访问 某 个 处 
在 old 区 域 的 节点 时 由 于 不 符合 时 间 间 隔 的 限制 而 不 能 将 其 移动 到 young 区 域 头 部 时 ， Page made not 
young 的 值 会 加 1。 


这 里 需要 注意 ， 对 于 处 在 young 区 域 的 节点 ， 如 果 由 于 它 在 young 区 域 的 1/4 处 而 导致 它 没有 被 移动 到 

young 区 域 头 部 ， 这 样 的 访问 并 不 会 将 Page made not young 的 值 加 1。 

youngs/s : 代表 每 秒 从 old 区 域 被 移动 到 young 区 域 头 部 的 节点 数量 。 

non-youngs/s : 代表 每 秒 由 于 不 满足 时 间 限 制 而 不 能 从 old 区 域 移动 到 young 区 域 头 部 的 节点 数量 。 

Pages read 、 created 、 written : 代表 读 取 , 创建 ， 写 入 了 多 少 页 。 后 边 跟着 读 取 、 创 建 、 写 入 的 速 

Buffer pool hit rate : 表示 在 过 去 某 段 时 间 ， 平 均 访问 1000 次 页 面 ， 有 多 少 次 该 页 面 已 经 被 缓存 到 

Buffer Pool 了 。 

。 young-making rate : 表示 在 过 去 某 段 时 间 ， 平 均 访问 1000 次 页 面 ， 有 多 少 次 访问 使 页 面 移 动 到 young 区 
域 的 头 部 了 。 


需要 大 家 注意 的 一 点 是 ， 这 里 统计 的 将 页 面 移 动 到 young 区 域 的 头 部 次 数 不 仅 仅 包 含 从 o1d 区 域 移动 到 
young 区 域 头 部 的 次 数 ， 还 包括 从 young 区 域 移动 到 young 区 域 头 部 的 次 数 (访问 某 个 young 区 域 的 节 
点 ， 只 要 该 节点 在 young 区 域 的 1/4 处 往 后 ， 就 会 把 它 移动 到 young 区 域 的 头 部 ) 。 

not (young-making rate) : 表示 在 过 去 革 段 时 间 ， 平 均 访 问 1000 次 页 面 ， 有 多 少 次 访问 没有 使 页 面 移动 
到 young 区 域 的 头 部 。 


需要 大 家 注意 的 一 点 是 ， 这 里 统计 的 没有 将 页 面 移动 到 young 区 域 的 头 部 次 数 不 仅 仅 包含 因为 设置 了 
innodb old blocks time 系统 变量 而 导致 访问 了 ol1d 区 域 中 的 节点 但 没 把 它们 移动 到 young 区 域 的 次 数 ， 
还 包含 因为 该 节点 在 young 区 域 的 前 1/4 处 而 没有 被 移动 到 young 区 域 头 部 的 次 数 。 
LRU len : 代表 LRU 链 表 中 节点 的 数量 。 
unzip_LRU : 代表 unzip_LRU 链 表 中 节点 的 数量 (由 于 我 们 没有 具体 路 切 过 这 个 链表 ， 现 在 可 以 忽略 它 的 
值 ) 。 
I/0 sum : 最 近 50s 读 取 磁 盘 页 的 总 数 。 
。 I/0 cur : 现在 正在 读 取 的 磁盘 页 数量 。 

I/0 unzip sum : 最 近 50s 解 压 的 页 面 数量 。 
。 I/0 unzip cur : 正在 解压 的 页 面 数量 。 








18.3 总 结 


1. 磁盘 太 慢 ， 用 内 存 作为 缓存 很 有 必要 。 

2，Buffer Pool 本 质 上 是 InnoDB 向 操作 系统 申请 的 一 段 连 续 的 内 存 空间 ， 可 以 通过 
innodb_ buffer pool _ size 来 调整 它 的 大 小 。 

3. Buffer Pool 向 操作 系统 申请 的 连续 内 存 由 控制 块 和 缓存 页 组 成 ， 每 个 控制 块 和 缓存 页 都 是 一 一 对 应 的 ， 在 
填充 足够 多 的 控制 块 和 缓存 页 的 组 合 后 ， Buffer Pool 剩余 的 空间 可 能 产生 不 够 填充 一 组 控制 块 和 缓存 页 ， 
这 部 分 空间 不 能 被 使 用 ， 也 被 称 为 碎片 。 

4. InnoDB 使 用 了 许多 链表 来 管理 Buffer Pool 。 








5，free 链 表 中 每 一 个 节点 都 代表 一 个 空闲 的 缓存 页 ， 在 将 磁盘 中 的 页 加 载 到 Buffer Pool 时 ,会 从 free 链 
表 中 寻找 空闲 的 缓存 页 。 

6. 为 了 快速 定位 某 个 页 是 否 被 加 载 到 Buffer Pool ， 使 用 表 空 间 号 + 页 号 作为 key ， 缓 存 页 作为 value ， 
建立 哈 希 表 。 

7. 在 Buffer Pool 中 被 修改 的 页 称 为 脏 页 ， 脏 页 并 不 是 立即 刷新 ， 而 是 被 加 入 到 flush 链 表 中 ， 待 之 后 的 某 
个 时 刻 同步 到 磁盘 上 。 

8.，LRU 链 表 分 为 young 和 old 两 个 区 域 ， 可 以 通过 innodb_old_blocks_pct 来 调节 old 区 域 所 占 的 比例 。 首 
次 从 磁盘 上 加 载 到 Buffer Pool 的 页 会 被 放 到 old 区 域 的 头 部 ， 在 innodb_ol1d_plocks_time 间隔 时 间 内 访 
问 该 页 不 会 把 它 移动 到 young 区 域 头 部 。 在 Buffer Pool 没有 可 用 的 空闲 缓存 页 时 ， 会 首先 淘汰 掉 o1d 区 
域 的 一 些 页 。 

9. 我 们 可 以 通过 指定 innodb buffer pool instances 来 控制 Buffer Pool 实例 的 个 数 ， 每 个 Buffer Pool 实 
例 中 都 有 各 自 独 立 的 链表 ， 互 不 干扰 。 

10. 自 MySQL 5. 7. 5 版 本 之 后 ， 可 以 在 服务 器 运行 过 程 中 调整 Buffer Pool 大 小 。 每 个 Buffer Pool 实例 由 若 
干 个 chunk 组 成 ， 每 个 chunk 的 大 小 可 以 在 服务 器 启动 时 通过 启动 参数 调整 。 

11. 可 以 用 下 边 的 命令 查看 Buffer Pool 的 状态 信息 : 











SHOW ENGINE INNODB STATUSANG 


19 第 19 章 从 猫 节 被 杀 说 起 -事务 简介 


标签 : MySQL 是 怎样 运行 的 


19.1 事务 的 起 源 


对 于 大 部 分 程序 员 来 说 ， 他 们 的 任务 就 是 把 现实 世界 的 业务 场景 映射 到 数据 库 世 界 。 比 如 银行 为 了 存储 人 们 的 账 
户 信息 会 建立 一 个 account 表 : 


CREATE TABLE account ( 
id INT NOT NULL AUTO INCREMENT COMMENT “ 自 增 id ， 
name VARCHAR(100) COMMENT “客户 名 称 ”， 
balance INT COMMENT 余额”， 
PRIMARY KEY (id) 
) Engine=InnoDB CHARSET=utf8; 





狗 哥 和 猫 爷 是 一 对 好 基 友 ， 他 们 都 到 银行 开 一 个 账户 ， 他 们 在 现实 世界 中 拥有 的 资产 就 会 体现 在 数据 库 世界 的 
account 表 中 。 比 如 现在 狗 哥 有 11 元 ， 猫 仑 只 有 2 元 ， 那 么 现实 中 的 这 个 情况 映射 到 数据 库 的 account 表 就 是 
这 样 : 























| id | name balance 
| 1 | 狗 哥 11 
| 2 | 猫 苑 有 














在 某 个 特定 的 时 刻 ， 狗 哥 猫 苑 这 些 家 伙 在 银行 所 拥有 的 资产 是 一 个 特定 的 值 ， 这 些 特 定 的 值 也 可 以 被 描述 为 账户 
在 这 个 特定 的 时 刻 现实 世界 的 一 个 状态 。 随 着 时 间 的 流逝 ， 狗 哥 和 猫 苑 可 能 陆续 进行 向 账户 中 人 存 钱 、 取 钱 或 者 向 
别人 转账 等 操作 ， 这 样 他 们 账户 中 的 余额 就 可 能 发 生变 动 ， 每 一 个 操作 都 相当 于 现实 世界 中 账户 的 一 次 状态 转 

换 。 数 据 库 世界 作为 现实 世界 的 一 个 映射 ， 自 然 也 要 进行 相应 的 变动 。 不 变 不 知道 ， 一 变 吓 一 跳 ， 现 实 世界 中 一 
些 看 似 很 简单 的 状态 转换 ， 映 射 到 数据 库 世界 却 不 是 那么 容易 的 。 比 方 说 有 一 次 猫 爷 在 赌场 赌博 输 了 钱 ， 急 忙 打 


电话 给 狗 哥 要 借 10 块 钱 ， 不 然 那 些 看 场子 的 就 会 把 自己 市 了 。 现 实 世界 中 的 狗 哥 走向 了 ATM 机 ， 输 入 了 猫 爷 的 账 
号 以 及 10 元 的 转账 金额 ， 然 后 按 下 确认 ， 狗 哥 就 拔 卡 走 人 了 。 对 于 数据 库 世 界 来 说， 相当 于 执行 了 下 边 这 两 条 语 
句 : 


UPDATE account SET balance = balance - 10 WHERE id = 1; 
UPDATE account SET balance = balance + 10 WHERE id = 2; 


但 是 这 里 头 有 个 问题 ， 上 述 两 条 语句 只 执行 了 一 条 时 忽然 服务 器 断 电 了 咋 办 ”把 狗 哥 的 钱 扣 了 ， 但 是 没 给 猫 苑 转 
过 去 ， 那 猫 爷 还 是 逃脱 不 了 被 砍 死 的 亚运 ~ 即使 对 于 单独 的 一 条 语句 ， 我 们 前 边 踪 明 Buffer Pool 时 也 说 过 ， 
在 对 某 个 页 面 进行 读 写 访问 时 ， 都 会 先 把 这 个 页 面 加 载 到 Buffer Pool 中 ， 之 后 如 果 修 改 了 某 个 页 面 ， 也 不 会 立 
即 把 修改 同步 到 磁盘 ， 而 只 是 把 这 个 修改 了 的 页 面 加 到 Buffer Pool 的 flush 链 表 中， 在 之 后 的 某 个 时 间 点 才 会 
刷新 到 磁盘 。 如 果 在 将 修改 过 的 页 刷新 到 磁盘 之 前 系统 崩 演 了 那 央 不 是 猫 爷 还 是 要 被 砍 死 ? 或 者 在 刷新 磁盘 的 过 
程 中 (只 刷新 部 分 数据 到 磁盘 上 ) 系统 奔 演 了 猫 爷 也 会 被 砍 死 ? 


怎么 才能 保证 让 可 怜 的 猫 爷 不 被 砍 死 呢 ? 其 实 再 仔细 想 想 ， 我 们 只 是 想 让 某 些 数据 库 操作 符合 现实 世界 中 状态 转 
换 的 规则 而 已 ， 设 计数 据 库 的 大 叔 们 仔细 盘算 了 盘算 ， 现 实 世界 中 状态 转换 的 规则 有 好 几 条 ， 待 我 们 慢 慢 道 来 。 





19.1.1 原子 性 (Atomicity) 


现实 世界 中 转账 操作 是 一 个 不 可 分 割 的 操作 ， 也 就 是 说 要 么 压根 儿 就 没 转 ， 要 么 转账 成 功 ， 不 能 存在 中 间 的 状 
态 ， 也 就 是 转 了 一 半 的 这 种 情况 。 设 计数 据 库 的 大 叔 们 把 这 种 要 么 全 做 ， 要 么 全 不 做 的 规则 称 之 为 原子 性 。 但 
是 在 现实 世界 中 的 一 个 不 可 分 割 的 操作 却 可 能 对 应 着 数据 库 世界 若干 条 不 同 的 操作 ， 数 据 库 中 的 一 条 操作 也 可 能 
被 分 解 成 若干 个 步骤 (比如 先 修改 缓存 页 ， 之 后 再 刷新 到 磁盘 等 ) ， 最 要 命 的 是 在 任何 一 个 可 能 的 时 间 都 可 能 发 
生意 想不到 的 错误 (可 能 是 数据 库 本 身 的 错误 ， 或 者 是 操作 系统 错误 ， 甚 至 是 直接 断 电 之 类 的 ) 而 使 操作 执行 不 
下 去 ， 所 以 猫 苑 可 能 会 被 砍 死 。 为 了 保证 在 数据 库 世 界 中 某 些 操作 的 原子 性 ， 设 计数 据 库 的 大 叔 需要 费 一 些 心机 
来 保证 如 果 在 执行 操作 的 过 程 中 发 生 了 错误 ， 把 已 经 做 了 的 操作 恢复 成 没 执 行 之 前 的 样子 ， 这 也 是 我 们 后 边 章节 
要 仔细 路 切 的 内 容 。 





19.1.2 隔离 性 (lsolation) 


现实 世界 中 的 两 次 状态 转换 应 该 是 互 不 影响 的 ， 比 如 说 狗 哥 向 猫 爷 同时 进行 的 两 次 金额 为 5 元 的 转账 (假设 可 以 
在 两 个 ATM 机 上 同时 操作 ) 。 那 么 最 后 狗 哥 的 账户 里 肯定 会 少 10 元 ， 猫 爷 的 账户 里 肯定 多 了 10 元 。 但 是 到 对 应 的 
数据 库 世 界 中 ， 事 情 又 变 的 复杂 了 一 些 。 为 了 简化 问题 ， 我 们 粗略 的 假设 狗 哥 向 猫 爷 转账 5 元 的 过 程 是 由 下 边 几 
个 步骤 组 成 的 : 


。 步骤 一 : 读 取 狗 哥 账 户 的 余额 到 变量 A 中 ， 这 一 步骤 简写 为 read (A) 。 

。 步骤 二 : 将 狗 哥 账户 的 余额 减 去 转账 金额 ， 这 一 步骤 简写 为 A= A - 5。 

。 步骤 三 : 将 狗 哥 账户 修改 过 的 余额 写 到 磁盘 里 ， 这 一 步骤 简写 为 write (A) 。 

。 步骤 四 : 读 取 猫 苑 账户 的 余额 到 变量 B， 这 一 步骤 简写 为 read(B) 。 

。 步骤 五 : 将 猫 爷 账户 的 余额 加 上 转账 金额 ， 这 一 步骤 简写 为 B= B + 5 。 

。 步骤 六 : 将 猫 苑 账户 修改 过 的 余额 写 到 磁盘 里 ， 这 一 步 又 简写 为 write(B) 。 
我 们 将 狗 哥 向 猫 爷 同时 进行 的 两 次 转账 操作 分 别称 为 T1 和 T2 ， 在 现实 世界 中 Tl 和 T2 是 应 该 没有 关系 的 ， 可 
以 先 执行 完 T1 ， 再 执行 T2 ， 或 者 先 执 行 完 72 ， 再 执行 T1 ， 对 应 的 数据 库 操作 就 像 这 样 : 


先 执 行 T1， 再 执行 T2 的 情况 : 先 执行 T2， 再 执行 T1 的 情况 : 


T1 T2 


read(A) read(A) 
A=A-5 | A=A-5 
write(A) | write(A) 
read(B) read(B) 
B=B+5 | B=B+5 
write(B) write(B) 


read(A) read(A) 
A=A-5 A=A-5 
write(A) write(A) 
read(B) read(B) 
B=B+5 B=B+5 
write(B) write(B) 





但 是 很 不 幸 ， 真 实 的 数据 库 中 T1 和 T2 的 操作 可 能 交 蔡 执行 ， 比 如 这 样 : 


T1 和 T2 交 替 执行 的 情况 : 


T1 


此 时 A 的 值 为 11 read(A) 
read(A) 此 时 A 的 值 为 11 


A=A-5 
此 时 A 的 值 为 6 write(A) 
此 时 B 的 值 为 2 read(B) 


B=B+5 
此 时 B 的 值 为 7 write(B) 


A=A-5 
write(A) 此 时 A 的 值 为 6 
read(B) 此 时 B 的 值 为 7 
B=B+5 
write(B) 此 时 B 的 值 为 12 





如 果 按 照 上 图 中 的 执行 顺序 来 进行 两 次 转账 的 话 ， 最 终 狗 哥 的 账户 里 还 剩 6 元 钱 ， 相 当 于 只 扣 了 5 元 钱 ， 但 是 猫 
和 爷 的 账户 里 却 成 了 12 元 钱 ， 相 当 于 多 了 10 元 钱 ， 这 银行 岂 不 是 要 亏 死 了 ? 


所 以 对 于 现实 世界 中 状态 转换 对 应 的 某 些 数据 库 操作 来 说 ， 不 仅 要 保证 这 些 操作 以 原子 性 的 方式 执行 完成 ， 而 
且 要 保证 其 它 的 状态 转换 不 会 影响 到 本 次 状态 转换 ， 这 个 规则 被 称 之 为 隔离 性 。 这 时 设计 数据 库 的 大 叔 们 就 需 
要 采取 一 些 措施 来 让 访问 相同 数据 (上 例 中 的 A 账 户 和 B 账 户 ) 的 不 同 状态 转换 (上 例 中 的 Tl 和 T2 ) 对 应 的 数 
据 库 操作 的 执行 顺序 有 一 定 规律 ， 这 也 是 我 们 后 边 章节 要 仔细 路 劝 的 内 容 。 


19.1.3 一 致 性 (Consistency) 


我 们 生活 的 这 个 世界 存在 着 形形色色 的 约束 ， 比 如 身份 证 号 不 能 重复 ， 性 别 只 能 是 男 或 者 女 ， 高 考 的 分 数 只 能 在 
0~750 之 间 ， 人 民 币 面值 最 大 只 能 是 100 (现在 是 2019 年 ) ， 红 绿灯 只 有 3 种 颜色 ， 房 价 不 能 为 负 的 ， 学 生 要 听 
老师 话 ， 吧 啦 吧 啦 有 点 儿 扯 远 了 ~ 只 有 符合 这 些 约束 的 数据 才 是 有 效 的 ， 比 如 有 个 小 孩儿 跟 你 说 他 高 考 考 了 
1000 分 ， 你 一 听 就 知道 他 胡扯 呢 。 数 据 库 世 界 只 是 现实 世界 的 一 个 映射 ， 现 实 世界 中 存在 的 约束 当然 也 要 在 数据 
库 世 界 中 有 所 体现 。 如 果 数 据 库 中 的 数据 全 部 符合 现实 世界 中 的 约束 (all defined rules) ， 我 们 说 这 些 数据 就 是 
一 致 的 ， 或 者 说 符合 一 致 性 的 。 


如 何 保证 数据 库 中 数据 的 一 致 性 (就 是 符合 所 有 现实 世界 的 约束 ) 呢 ? 这 其 实 靠 两 方面 的 努力 : 
。 数据 库 本 身 能 为 我 们 保证 一 部 分 一 致 性 需求 (就 是 数据 库 自身 可 以 保证 一 部 分 现实 世界 的 约束 永远 有 效 ) 。 


我 们 知道 MySQL 数据 库 可 以 为 表 建立 主键 、 唯 一 索引 、 外 键 、 声 明 某 个 列 为 NOT NULL 来 拒绝 NULL 值 的 插 
入 。 比 如 说 当 我 们 对 某 个 列 建立 唯一 索引 时 ， 如 果 插 入 某 条 记录 时 该 列 的 值 重复 了 ， 那 么 MySQL 就 会 报错 并 
且 拒 绝 插 入 。 除 了 这 些 我 们 已 经 非常 熟悉 的 保证 一 致 性 的 功能 ， MySQL 还 支持 CHECK 语法 来 自 定义 约束 ， 比 
如 这 样 : 


CREATE TABLE account ( 
id INT NOT NULL AUTO INCREMENT COMMENT ” 自 增 id ， 
name VARCHAR (100) COMMENT “客户 名 称 " ， 
balance INT COMMENT “余额 ， 
PRIMARY KEY (id)， 
CHECK (balance >= 0) 





) ; 


上 述 例子 中 的 CHECK 语句 本 意 是 想 规 定 balance 列 不 能 存储 小 于 0 的 数字 ， 对 应 的 现实 世界 的 意思 就 是 银行 
账户 余额 不 能 小 于 0。 但 是 很 遗憾 ，MySQL 仅 仅 支持 CHECK 语 法 ， 但 实际 上 并 没有 一 点 卵 用 ， 也 就 是 说 即使 
我 们 使 用 上 述 带 有 CHECK 子 句 的 建 表 语 句 来 创建 account 表 ， 那 么 在 后 续 插 入 或 更 新 记录 时 ， MySQL 并 不 
会 去 检查 CHECK 子 句 中 的 约束 是 否 成 立 。 


小 贴 士 : 

其 它 的 一 些 数 据 库 ， 比 如 SQL Server 或 者 0racle 支 持 的 CHECK 语 法 是 有 实 实在 在 的 作用 的 ， 每 次 
进行 插入 或 更 新 记录 之 前 都 会 检查 一 下 数据 是 否 符合 CHECK 子 句 中 指定 的 约束 条 件 是 否 成 立 ， 如 果 
不 成 立 的 话 就 会 拒绝 插入 或 更 新 。 


虽然 CHECK 子 句 对 一 致 性 检查 没什么 卵 用 ， 但 是 我 们 还 是 可 以 通过 定义 触发 器 的 方式 来 自 定义 一 些 约束 条 件 
以 保证 数据 库 中 数据 的 一 致 性 。 


小 贴 士 : 
触发 器 是 MySQL 基 础 内 容 中 的 知识 ， 本 书 是 一 本 MySQL 进 阶 的 书籍 ， 如 果 你 不 了 解 触发 器 ， 那 恐怕 
要 找 本 基础 内 容 的 书籍 来 看 看 了 。 


。 更 多 的 一 致 性 需求 需要 靠 写 业务 代码 的 程序 员 自 己 保证 。 


为 建立 现实 世界 和 数据 库 世 界 的 对 应 关系 ， 理 论 上 应 该 把 现实 世界 中 的 所 有 约束 都 反应 到 数据 库 世 界 中 ， 但 
是 很 不 幸 ， 在 更 改 数据 库 数 据 时 进行 一 致 性 检查 是 一 个 耗费 性 能 的 工作 ， 比 方 说 我 们 为 account 表 建 立 了 一 
个 触发 器 ， 每 当 插 入 或 者 更 新 记录 时 都 会 校 验 一 下 balance 列 的 值 是 不 是 大 于 0， 这 就 会 影响 到 插入 或 更 新 
的 速度 。 仅 仅 是 校 验 一 行 记 录 符 不 符合 一 致 性 需求 倒 也 不 是 什么 大 问题 ， 有 的 一 致 性 需求 简直 变态 ， 比 方 说 
银行 会 建立 一 张 代表 账单 的 表 ， 里 边 儿 记 录 了 每 个 账户 的 每 笔 交 易 ， 每 一 笔 交 易 完 成 后 ， 都 需要 保证 整个 系 
统 的 余额 等 于 所 有 账户 的 收入 减 去 所 有 账户 的 支出 。 如 果 在 数据 库 层面 实现 这 个 一 致 性 需求 的 话 ， 每 次 发 生 
交易 时 ， 都 需要 将 所 有 的 收入 加 起 来 减 去 所 有 的 支出 ， 再 将 所 有 的 账户 余额 加 起 来 ， 看 看 两 个 值 相 不 相等 。 

这 不 是 搞笑 呢 么 ， 如 果 账 单 表 里 有 几 亿 条 记录 ， 光 是 这 个 校 验 的 过 程 可 能 就 要 跑 好 几 个 小 时 ， 也 就 是 说 你 在 
煎饼 摊 买 个 煎饼 ， 使 用 银行 卡 付款 之 后 要 等 好 几 个 小 时 才能 提示 付款 成 功 ， 这 样 的 性 能 代价 是 完全 承受 不 起 
的 。 































































































现实 生活 中 复杂 的 一 致 性 需求 比比 皆 是 ， 而 由 于 性 能 问题 把 一 致 性 需求 交 给 数据 库 去 解决 这 是 不 现实 的 ， 所 
以 这 个 锅 就 甩 给 了 业务 端 程 序 员 。 比 方 说 我 们 的 account 表 ， 我 们 也 可 以 不 建立 触发 器 ， 只 要 编写 业务 的 程 
序 员 在 自己 的 业务 代码 里 判断 一 下 ， 当 某 个 操作 会 将 balance 列 的 值 更 新 为 小 于 0 的 信 时 ， 就 不 执行 该 操作 
就 好 了 嘛 ! 


我 们 前 边 啼 明 的 原子 性 和 隔离 性 都 会 对 一 致 性 产生 影响 ， 比 如 我 们 现实 世界 中 转账 操作 完成 后 ， 有 一 个 一 
致 性 需求 就 是 参与 转账 的 账户 的 总 的 余额 是 不 变 的 。 如 果 数 据 库 不 遵循 原子 性 要 求 ， 也 就 是 转 了 一 半 就 不 转 
了 ， 也 就 是 说 给 狗 哥 扣 了 钱 而 没 给 猫 爷 转 过 去 ， 那 最 后 就 是 不 符合 一 致 性 需求 的 ;类似 的 ， 如 果 数 据 库 不 遵循 隔 
离 性 要 求 ， 就 像 我 们 前 边 啼 归 隔离 性 时 举 的 例子 中 所 说 的 ， 最 终 狗 哥 账户 中 扣 的 钱 和 猫 爷 账户 中 涨 的 钱 可 能 就 
不 一 样 了 ， 也 就 是 说 不 符合 一 致 性 需求 了 。 所 以 说 ,数据库 某 些 操作 的 原子 性 和 隔离 性 都 是 保证 一 致 性 的 一 种 
手段 ， 在 操作 执行 完成 后 保证 符合 所 有 了 既定 的 约束 则 是 一 种 结果 。 那 满足 原子 性 和 隔离 性 的 操作 一 定 就 满足 
一 致 性 么 ? 那 倒 也 不 一 定 ， 比 如 说 狗 哥 要 转账 20 元 给 猫 爷 ， 昌 然 在 满足 原子 性 和 隔离 性 ， 但 转账 完成 了 之 后 
狗 哥 的 账户 的 余额 就 成 负 的 了 ， 这 显然 是 不 满足 一 致 性 的 。 那 不 满足 原子 性 和 隔离 性 的 操作 就 一 定 不 满足 
一 致 性 么 ”这 也 不 一 定 ， 只 要 最 后 的 结果 符合 所 有 现实 世界 中 的 约束 ， 那 么 就 是 符合 一 致 性 的 。 









































19.1.4 持久 性 (Durability) 


当 现实 世界 的 一 个 状态 转换 完成 后 ， 这 个 转换 的 结果 将 永久 的 保留 ， 这 个 规则 被 设计 数据 库 的 大 叔 们 称 为 持久 
性 。 比 方 说 狗 哥 向 猫 爷 转账 ， 当 ATM 机 提示 转账 成 功 了 ， 就 意味 着 这 次 账户 的 状态 转换 完成 了 ， 狗 哥 就 可 以 拔 卡 
走 人 了 。 如 果 当 狗 哥 走 掉 之 后 ,银行 又 把 这 次 转账 操作 给 撤销 掉 ， 恢 复 到 没 转账 之 前 的 样子 ， 那 猫 爷 不 就 惨 了 ， 
又 得 被 砍 死 了 ， 所 以 这 个 持久 性 是 非常 重要 的 。 


当 把 现实 世界 的 状态 转换 映射 到 数据 库 世界 时 ， 持久 性 意味 着 该 转换 对 应 的 数据 库 操 作 所 修改 的 数据 都 应 该 在 
磁盘 上 保留 下 来 ， 不 论 之 后 发 生 了 什么 事故 ， 本 次 转换 造成 的 影响 都 不 应 该 被 丢失 掉 (要 不 然 猫 爷 还 是 会 被 砍 
死 ) 。 


19.2 事务 的 概念 


为 了 方便 大 家 记 住 我 们 上 边 啼 明 的 现实 世界 状态 转换 过 程 中 需要 遵守 的 4 个 特性 ， 我 们 把 原子 性 
( Atomicity ) 、 隔离 性 ( Isolation ) 、 一 致 性 ( Consistency ) 和 持久 性 ( Durability ) 这 四 个 词 

对 应 的 英文 单词 首 字 母 提取 出 来 就 是 A、 了 I 、C 、D， 稍微 变换 一 下 顺序 可 以 组 成 一 个 完整 的 英文 单词 : 

ACID 。 想 必 大 家 都 是 学 过 初 高 中 英语 的 ， ACID 是 英文 酸 的 意思 ， 以 后 我 们 提 到 ACID 这 个 词 儿 ， 大 家 就 应 该 

想到 原子 性 、 一 致 性 、 隔 离 性 、 持 久 性 这 几 个 规则 。 另 外 ， 设 计数 据 库 的 大 叔 为 了 方便 起 见 ， 把 需要 保证 原子 

性 、 隔离 性 、 一致 性 和 持久 性 的 一 个 或 多 个 数据 库 操作 称 之 为 一 个 事务 (英文 名 是 : transaction ) 。 


我 们 现在 知道 事务 是 一 个 抽象 的 概念 ， 它 其 实 对 应 着 一 个 或 多 个 数据 库 操 作 ， 设 计数 据 库 的 大 叔 根 据 这 些 操作 
所 执行 的 不 同 阶段 把 事务 大 致 上 划分 成 了 这 么 几 个 状态 : 


。 活动 的 (active) 
事务 对 应 的 数据 库 操作 正在 执行 过 程 中 时 ， 我 们 就 说 该 事务 处 在 活动 的 状态 。 


。 部 分 提交 的 (partially committed ) 


当 事 务 中 的 最 后 一 个 操作 执行 完成 ， 但 由 于 操作 都 在 内 存 中 执行 ， 所 造成 的 影响 并 没有 刷新 到 磁盘 时 ， 我 们 
就 说 该 事务 处 在 部 分 提交 的 状态 。 
失败 的 (failed) 


当 事 务 处 在 活动 的 或 者 部 分 提交 的 状态 时 ， 可 能 遇 到 了 某 些 错误 (数据 库 自 身 的 错误 、 操 作 系统 错 误 或 者 
直接 断 电 等 ) 而 无 法 继续 执行 ， 或 者 人 为 的 停止 当前 事务 的 执行 ， 我 们 就 说 该 事务 处 在 失败 的 状态 。 
。 中 止 的 (aborted) 


如 果 事务 执行 了 半截 而 变 为 失败 的 状态 ， 比 如 我 们 前 边 噶 另 的 狗 哥 向 猫 爷 转账 的 事务 ， 当 狗 哥 账 户 的 钱 被 
扣除 ， 但 是 猫 分 账户 的 钱 没有 增加 时 遇 到 了 错误 ， 从 而 当前 事务 处 在 了 失败 的 状态 ， 那 么 就 需要 把 已 经 修 
改 的 狗 哥 账户 余额 调整 为 未 转账 之 前 的 金额 ， 换 名 话说， 就 是 要 撤销 失败 事务 对 当前 数据 库 造 成 的 影响 。 书 



































面 一 点 的 话 ， 我 们 把 这 个 撤销 的 过 程 称 之 为 回 滚 。 当 回 深 操作 执行 完毕 时 ， 也 就 是 数据 库 恢复 到 了 执行 事 
务 之 前 的 状态 ， 我 们 就 说 该 事务 处 在 了 中 止 的 状态 。 

。 提交 的 (committed) 
当 一 个 处 在 部 分 提交 的 状态 的 事务 将 修改 过 的 数据 都 同步 到 磁盘 上 之 后 ， 我 们 就 可 以 说 该 事务 处 在 了 提交 


随 着 事务 对 应 的 数据 库 操作 执行 到 不 同 阶段 ， 事 务 的 状态 也 在 不 断 变化 ， 一 个 基本 的 状态 转换 图 如 下 所 示 : 






刷新 到 磁盘 


刷新 到 磁盘 时 遇 到 了 错误 





回 滚 操作 执行 完 





从 图 中 大 家 也 可 以 看 出 了 ， 只 有 当 事 务 处 于 提交 的 或 者 中 止 的 状态 时 ， 一 个 事务 的 生命 周期 才 算 是 结束 了 。 对 于 
已 经 提交 的 事务 来 说 ， 该 事务 对 数据 库 所 做 的 修改 将 永久 生效 ， 对 于 处 于 中 止 状 态 的 事务 ， 该 事务 对 数据 库 所 做 
的 所 有 修改 都 会 被 回 滚 到 没 执行 该 事务 之 前 的 状态 。 


小 由 士 : 

此 贴 十 处 纯 属 扯 特 子 ， 与 正文 没 啥 关系 ， 纯 属 吐槽。 大 家 知道 我 们 的 计算 机 术语 基本 上 全 是 从 英文 翻译 
成 中 文 的 ， 事 务 的 英文 是 transaction， 英 文 直译 就 是 交易 ， 买 卖 的 意思 ， 交 易 就 是 买 的 人 付 钱 ， 卖 的 
人 交 货 ， 不 能 付 了 钱 不 交 货 ， 交 了 货 不 付 钱 把 ， 所 以 交易 本 身 就 是 一 种 不 可 分 割 的 操作 。 不 知道 是 哪 位 
大 神 把 transaction 翻 译 成 了 事务 〈 我 想 估 计 是 他 们 也 想 不 出 什么 更 好 的 词 儿 ， 只 能 随便 找 一 个 了 ) ， 
事务 这 个 词 儿 完全 没有 交易 、 买 卖 的 意思 ， 所 以 大 家 理解 起 来 也 会 比较 困难 ， 外 国人 理解 transaction 
可 能 更 好 理解 一 点 吧 一 


19.3 MySQL 中 事务 的 语 ; 


我 们 说 事务 的 本 质 其 实 只 是 一 系列 数据 库 操 作 ， 只 不 过 这 些 数 据 库 操作 符合 ACID 特性 而 已 ， 那 么 MySQL 中 如 
何 将 某 些 操作 放 到 一 个 事务 里 去 执行 的 呢 ? 我 们 下 边 就 来 重点 踪 切 路 切 。 





























19.3.1 开启 事务 
我 们 可 以 使 用 下 边 两 种 语句 之 一 来 开启 一 个 事务 : 


。 BEGIN [WORK]; 


BEGIN 语句 代表 开启 一 个 事务 ， 后 边 的 单词 WORK 可 有 可 无 。 开 启事 务 后 ， 就 可 以 继续 写 若干 条 语句 ， 这 些 
语句 都 属于 刚刚 开启 的 这 个 事务 。 


mysql> BEGIN; 
Query OK, 0 rows affected (0. 00 sec) 


mysql> 加 入 事务 的 语句 ... 
。 START TRANSACTION: 


START TRANSACTION 语句 和 BEGIN 语句 有 着 相同 的 功效 ， 都 标志 着 开启 一 个 事务 ， 比 如 这 样 : 





mysql> START TRANSACTION ; 
Query OK，0 rows affected (0. 00 sec) 


mysql> 加 入 事务 的 语句 ... 


不 过 比 BEGIN 语句 牛 逼 一 点 儿 的 是 ， 可 以 在 START TRANSACTION 语句 后 边 跟 随 几 个 修饰 符 ， 就 是 它们 几 

个 : 
= READ ONLY : 标识 当前 事务 是 一 个 只 读 事 务 ， 也 就 是 属于 该 事务 的 数据 库 操作 只 能 读 取 数据 ， 而 不 能 修 
改 数据 。 

小 贴 士 : 
其 实 只 读 事务 中 只 是 不 允许 修改 那些 其 他 事务 也 能 访问 到 的 表 中 的 数据 ， 对 于 临时 表 来 说 
(我 们 使 用 CREATE TMEPORARY TABLE 创 建 的 表 ) ， 由 于 它们 只 能 在 当前 会 话 中 可 见 ， 所 以 只 读 

事务 其 实 也 是 可 以 对 临时 表 进 行 增 、 删 、 改 操作 的 。 


" READ WRITE : 标识 当前 事务 是 一 个 读 写 事务 ， 也 就 是 属于 该 事务 的 数据 库 操作 既 可 以 读 取 数据 ， 也 可 


以 修改 数据 。 
WITH CONSISTENT SNAPSHOT : 启动 一 致 性 读 ( 先 不 用 关心 啥 是 个 一 致 性 读 ， 后 边 的 章节 才 会 嘴 归 ) 。 










































































比如 我 们 想 开 启 一 个 只 读 事 务 的 话 ， 直 接 把 READ ONLY 这 个 修饰 符 加 在 START TRANSACTION 语句 后 边 就 
好 ， 比 如 这 样 : 


START TRANSACTION READ ONLY ; 


如 果 我 们 想 在 START TRANSACTION 后 边 跟随 多 个 修饰 符 的 话 ， 可 以 使 用 逗号 将 修饰 符 分 开 ， 比 如 开 
启 一 个 只 读 事 务 和 一 致 性 读 ， 就 可 以 这 样 写 : 


START TRANSACTION READ ONLY, WITH CONSISTENT SNAPSHOT; 
或 者 开启 一 个 读 写 事务 和 一 致 性 读 ， 就 可 以 这 样 写 : 
START TRANSACTION READ WRITE, WITH CONSISTENT SNAPSHOT 


不 过 这 里 需要 大 家 注意 的 一 点 是 ， READ ONLY 和 READ WRITE 是 用 来 设置 所 谓 的 事务 访问 模式 的 ,就 
是 以 只 读 还 是 读 写 的 方式 来 访问 数据 库 中 的 数据 ， 一 个 事务 的 访问 模式 不 能 同时 既 设置 为 只 读 的 也 设 
置 为 读 写 的 ， 所 以 我 们 不 能 同时 把 READ ONLY 和 READ WRITE 放 到 START TRANSACTION 语句 后 边 。 另 
外 ， 如 果 我 们 不 显 式 指定 事务 的 访问 模式 ， 那 么 该 事务 的 访问 模式 就 是 读 写 模式 。 


19.3.2 提交 事务 
开启 事务 之 后 就 可 以 继续 写 需要 放 到 该 事务 中 的 语句 了 ， 当 最 后 一 条 语句 写 完了 之 后 ， 我 们 就 可 以 提交 该 事务 
了 ， 提 交 的 语句 也 很 简单 : 


COMMIT [WORK] 


COMMIT 语句 就 代表 提交 一 个 事务 ， 后 边 的 WORK 可 有 可 无 。 比 如 我 们 上 边 说 狗 哥 给 猫 爷 转 10 元 钱 其 实 对 应 
MySQL 中 的 两 条 语句 ， 我 们 就 可 以 把 这 两 条 语句 放 到 一 个 事务 中 ， 完 整 的 过 程 就 是 这 样 : 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> UPDATE account SET balance = balance - 10 WHERE id = 1; 
Query OK, 1 row affected (0.02 sec) 
Rows matched: 1 Changed: 1 VWarnings: 0 


mysql> UPDATE account SET balance = balance + 10 WHERE id = 2; 
Query OK, 1 row affected (0.00 sec) 
Rows matched: 1 Changed: 1 VWarnings: 0 


mysql> COMMIT ; 
Query OK，0 rows affected (0. 00 sec) 


19.3.3 手动 中 止 事 务 


如 果 我 们 写 了 几 条 语句 之 后 发 现 上 边 的 某 条 语句 写 错 了 ， 我 们 可 以 手动 的 使 用 下 边 这 个 语句 来 将 数据 库 恢 复 到 事 
务 执行 之 前 的 样子 : 


ROLLBACK [WORK] 


ROLLBACK 语句 就 代表 中 止 并 回 滚 一 个 事务 ， 后 边 的 WORK 可 有 可 无 类 似 的 。 比 如 我 们 在 写 狗 哥 给 猫 爷 转账 10 元 
钱 对 应 的 MySQL 语句 时 ， 先 给 狗 哥 扣 了 10 元 ， 然 后 一 时 大 意 只 给 猫 爷 账户 上 增加 了 1 元 ， 此 时 就 可 以 使 用 
ROLLBACK 语句 进行 回 滚 ， 完 整 的 过 程 就 是 这 样 : 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> UPDATE account SET balance = balance - 10 WHERE id = 1; 
Query OK, 1 row affected (0.00 sec) 
Rows matched: 1 Changed: 1 VWarnings: 0 


mysql> UPDATE account SET balance = balance + 1 WHERE id = 2; 
Query OK, 1 row affected (0. 00 sec) 
Rows matched: 1 Changed: 1 VWarnings: 0 





mysql> ROLLBACK; 
Query OK, 0 rows affected (0. 00 sec) 


这 里 需要 强调 一 下 ， ROLLBACK 语句 是 我 们 程序 员 手 动 的 去 回 滚 事务 时 才 去 使 用 的 ， 如 果 事 务 在 执行 过 程 中 遇 到 
了 某 些 错 误 而 无 法 继续 执行 的 话 ， 事 务 自身 会 自动 的 回 滚 。 


小 贴 士 : 

我 们 这 里 所 说 的 开启 、 提 交 、 中 止 事 务 的 语法 只 是 针对 使 用 黑 框 框 时 通过 mysq1 客 户 端 程序 与 服务 器 ; 
行 交 互 时 控制 事务 的 语法 ， 如 果 大 家 使 用 的 是 别 的 客户 端 程序 ， 比 如 JDBC 之 类 的 ， 那 需要 参考 相应 的 文 
档 来 看 看 如 何 控制 事务 。 

























































































19.3.4 支持 事务 的 存储 引擎 


MySQL 中 并 不 是 所 有 存储 引 警 都 支持 事务 的 功能 ， 目 前 只 有 InnoDB 和 NDB 存储 引擎 支持 (NDB 存储 引擎 


不 是 我 


们 的 重点 ) ,如果 某 个 事务 中 包含 了 修改 使 用 不 支持 事务 的 存储 引擎 的 表 ， 那 么 对 该 使 用 不 支持 事务 的 存储 引擎 
的 表 所 做 的 修改 将 无 法 进行 回 滚 。 比 方 说 我 们 有 两 个 表 ， tbl1 使 用 支持 事务 的 存储 引擎 InnoDB ， tb12 使 用 不 


支持 事务 的 存储 引擎 MyISAM ， 它 们 的 建 表 语句 如 下 所 示 : 
CREATE TABLE tbll ( 
i int 


) engine=InnoDB; 


CREATE TABLE tb12 ( 
i int 
) ENGINE=MyISAM; 


我 们 看 看 先 开启 一 个 事务 ， 写 一 条 插入 语句 后 再 回 滚 该 事务 ， tbll 和 tb12 的 表现 有 什么 不 同 : 


mysql> SELECT x* FROM tbll; 
Empty set (0. 00 sec) 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> INSERT INTO tbll VALUES(1): 
Query OK, 1 row affected (0. 00 sec) 


mysql> ROLLBACK; 
Query OK，0 rows affected (0. 00 sec) 


mysql> SELECT x* FROM tbll; 
Empty set (0. 00 sec) 


可 以 看 到 ， 对 于 使 用 支持 事务 的 人 存储 引擎 的 tbl1 表 来 说 ， 我 们 在 插入 一 条 记录 再 回 滚 后 ， tbll 就 恢 
入 记录 时 的 状态 了 。 再 看 看 tb12 表 的 表现 : 


mysql> SELECT x* FROM tb12; 
Empty set (0.00 sec) 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> INSERT INTO tbl2 VALUES(1): 
Query OK, 1 row affected (0. 00 sec) 


mysql> ROLLBACK; 
Query OK, 0 rows affected, 1 warning (0.01 sec) 


mysql> SELECT x* FROM tb12; 

















1 row in set (0.00 sec) 


可 以 看 到 ， 虽 然 我 们 使 用 了 ROLLBACK 语句 来 回 滚 事务 ， 但 是 插入 的 那 条 记录 还 是 留 在 了 tb12 表 中 。 


复 到 没有 插 


19.3.5 自动 提交 
MySQL 中 有 一 个 系统 变量 autocommit : 


mysql> SHOW VARIABLES LIKE ”autocommit ; 





Variable name | Value 





autocommit ON 














1 row in set (0.01 sec) 


可 以 看 到 它 的 默认 值 为 ON ， 也 就 是 说 默认 情况 下 ， 如 果 我 们 不 显 式 的 使 用 START TRANSACTION 或 者 BEGIN 语句 
开启 一 个 事务 ， 那 么 每 一 条 语句 都 算是 一 个 独立 的 事务 ， 这 种 特性 称 之 为 事务 的 自动 提交 。 假 如 我 们 在 狗 哥 向 

猫 苑 转账 10 元 时 不 以 START TRANSACTION 或 者 BEGIN 语句 显 式 的 开启 一 个 事务 ， 那 么 下 边 这 两 条 语句 就 相当 于 

放 到 两 个 独立 的 事务 中 去 执行 : 





UPDATE account SET balance = balance - 10 WHERE id = 1; 
UPDATE account SET balance = balance + 10 WHERE id = 2; 


当然 ， 如 果 我 们 想 关 闭 这 种 自动 提交 的 功能 ， 可 以 使 用 下 边 两 种 方法 之 一 : 
。 显 式 的 的 使 用 START TRANSACTION 或 者 BEGIN 语句 开启 一 个 事务 。 
这 样 在 本 次 事务 提交 或 者 回 滚 前 会 暂时 关闭 掉 自 动 提交 的 功能 。 


把 系统 变量 autocommit 的 值 设置 为 OFF ， 就 像 这 样 : 





SET autocommit = OFF ; 


这 样 的 话 ， 我 们 写 入 的 多 条 语句 就 算是 属于 同一 个 事务 了 ， 直 到 我 们 显 式 的 写 出 COMMIT 语句 来 把 这 个 事务 
提交 掉 ， 或 者 显 式 的 写 出 ROLLBACK 语句 来 把 这 个 事务 回 滚 掉 。 


19.3.6 隐 式 提交 


当 我 们 使 用 START TRANSACTION 或 者 BEGIN 语句 开启 了 一 个 事务 ， 或 者 把 系统 变量 autocommit 的 值 设置 为 OFF 
时 ， 事 务 就 不 会 进行 自动 提交 ， 但 是 如 果 我 们 输入 了 某 些 语句 之 后 就 会 悄悄 的 提交 掉 ， 就 像 我 们 输入 了 
COMMIT 语句 了 一 样 ， 这 种 因为 某 些 特殊 的 语句 而 导致 事务 提交 的 情况 称 为 隐 式 提交 ， 这 些 会 导致 事务 隐 式 提交 
的 语句 包括 : 


。 定义 或 修改 数据 库 对 象 的 数据 定义 语言 (Data definition language， 缩 写 为 : DDL ) 。 


所 谓 的 数据 库 对 象 ， 指 的 就 是 数据 库 、 表 、 视图 、 存储 过 程 等 等 这 些 东 西 。 当 我 们 使 用 CREATE 、 
ALTER 、 DROP 等 语句 去 修改 这 些 所 谓 的 数据 库 对 象 时 ， 就 会 隐 式 的 提交 前 边 语句 所 属于 的 事务 ， 就 像 这 
样 : 


BEGIN; 














SELECT ... # 事务 中 的 一 条 语句 
UPDATE ... # 事务 中 的 一 条 语句 
. # 事务 中 的 其 它 语句 

















mm 
雪山 

















CREATE TABLE ... # 此 语句 会 隐 式 的 提交 前 边 语句 所 属于 的 事务 


。 隐 式 使 用 或 修改 mysal 数据 库 中 的 表 





当 我 们 使 用 ALTER USER 、 CREATE USER 、 DROP USER 、 GRANT 、 RENAME USER 、 REVOKE 、 SET 
PASSWORD 等 语句 时 也 会 隐 式 的 提交 前 边 语句 所 属于 的 事务 。 
事务 控制 或 关于 锁定 的 语句 


当 我 们 在 一 个 事务 还 没 提交 或 者 回 滚 时 就 又 使 用 START TRANSACTION 或 者 BEGIN 语句 开启 了 另 一 个 事务 时 ， 


会 隐 式 的 提交 上 一 个 事务 ， 比 如 这 样 : 
BEGIN: 
SELECT ... # 事务 中 的 一 条 语句 


UPDATE ... # 事务 中 的 一 条 语句 
. # 事务 中 的 其 它 语句 





dH 


























BEGIN; # 此 语句 会 隐 式 的 提交 前 边 语句 所 属于 的 事务 








或 者 当前 的 autocommit 系统 变量 的 值 为 OFF ， 我 们 手动 把 它 调 为 ON 时 ， 也 会 隐 式 的 提交 前 边 语句 所 属 的 


事务 。 


或 者 使 用 LOCK TABLES 、 UNLOCK TABLES 等 关于 锁定 的 语句 也 会 隐 式 的 提交 前 边 语句 所 属 的 事务 。 
加 载 数据 的 语 名 


比如 我 们 使 用 LOAD DATA 语句 来 批量 往 数 据 库 中 导入 数据 时 ， 也 会 隐 式 的 提交 前 边 语句 所 属 的 事务 。 
关于 MySQL 复制 的 一 些 语句 


使 用 START SLAVE 、 STOP SLAVE 、 RESET SLAVE 、 CHANGE MASTER T0 等 语句 时 也 会 隐 式 的 提交 前 边 语句 


所 属 的 事务 。 
其 它 的 一 些 语句 


使 用 ANALYZE TABLE 、 CACHE INDEX 、 CHECK TABLE 、 FLUSH 、 LOAD INDEX INTO CACHE 、 OPTIMIZE 
TABLE 、 REPAIR TABLE 、 RESET 等 语句 也 会 隐 式 的 提交 前 边 语句 所 属 的 事务 。 


小 贴 士 : 

上 边 提 到 的 一 些 语 句 ， 如 果 你 都 认识 并 且 知 道 是 干 嘛 用 的 那 再 好 不 过 了 ， 不 认识 也 不 要 气 馒 ， 这 里 写 出 
来 只 是 为 了 内 容 的 完整 性 ， 把 可 能 会 导致 事务 隐 式 提交 的 情况 都 列举 一 下 ， 具 体 每 个 语句 都 是 干 嘛 用 的 
等 我 们 遇 到 了 再 说 哈 。 










































































19.3.7 保存 点 


如 果 你 开启 了 一 个 事务 ， 并 且 已 经 敲 了 很 多 语句 ， 忽 然 发 现 上 一 条 语句 有 点 问题 ， 你 只 好 使 用 ROLLBACK 语句 来 
让 数据 库 状 态 恢 复 到 事务 执行 之 前 的 样子 ， 然 后 一 切 从 头 再 来 ， 总 有 一 种 一 夜 回 到 解放 前 的 感觉 。 所 以 设计 数据 
库 的 大 叔 们 提出 了 一 个 保存 点 (英文 : savepoint ) 的 概念 ， 就 是 在 事务 对 应 的 数据 库 语句 中 打 几 个 点 ， 我 们 


在 调用 ROLLBACK 语句 时 可 以 指定 会 滚 到 哪个 点 ， 而 不 是 回 到 最 初 的 原点 。 定 义 保 存 点 的 语法 如 下 : 
SAVEPOINT 保存 点 名 称 ; 


当 我 们 想 回 滚 到 某 个 保存 点 时 ， 可 以 使 用 下 边 这 个 语句 (下边 语句 中 的 单词 WORK 和 SAVEPOINT 是 可 有 可 无 
的 ) : 


ROLLBACK [WORK] TO [SAVEPOINT] 保存 点 名 称 ; 
不 过 如 果 ROLLBACK 语句 后 边 不 跟随 保存 点 名 称 的 话 ， 会 直接 回 滚 到 事务 执行 之 前 的 状态 。 
如 果 我 们 想 删 除 某 个 保存 点 ， 可 以 使 用 这 个 语句 : 


RELEASE SAVEPOINT 保存 点 名 称 ; 


下 边 还 是 以 狗 哥 向 猫 爷 转账 10 元 的 例子 展示 一 下 保存 点 的 用 法 ， 在 执行 完 扣 除 狗 哥 账户 的 钱 10 元 的 语句 之 后 
打 一 个 保存 点 : 


mysql> SELECT x*¥ FROM account ; 














id | name balance 
1 | 狗 哥 11 
2 | 猫 第 2 


























2 rows in set (0. 00 sec) 


mysql> BEGIN; 
Query OK, 0 rows affected (0.00 sec) 


mysql> UPDATE account SET balance = balance - 10 WHERE id = 1; 
Query OK, 1 row affected (0.01 sec) 


Rows matched: 1 Changed: 1 VWarnings: 0 


mysql> SAVEPOINT sl; # 一 个 保存 点 
Query OK, 0 rows affected (0.00 sec) 


mysql> SELECT x*¥ FROM account ; 











id | name balance 
1 | 狗 哥 1 
2 | 狂 爷 2 





























2 rows in set (0. 00 sec) 


mysql> UPDATE account SET balance = balance + 1 WHERE id = 2; # 更 新 错 了 
Query OK, 1 row affected (0. 00 sec) 
Rows matched: 1 Changed: 1 _ Warnings: 0 








| 


mysql> ROLLBACK TO sl; # 回 深 到 保存 点 s1 处 
Query OK, 0 rows affected (0. 00 sec) 











mysql> SELECT x*¥ FROM account ; 








id | name balance 
1 | 狗 哥 1 
2 | 狂 爷 2 
































2 rows in set (0. 00 sec) 


20 第 20 章 说 过 的 话 就 一 定 要 办 到 -redo 日 志 (上 ) 


标签 : MySQL 是 怎样 运行 的 


20.1 事先 说 明 


本 文 以 及 接 下 来 的 几 篇 文章 将 会 频繁 的 使 用 到 我 们 前 边 踪 归 的 InnoDB 记录 行 格式 、 页 面 格式 、 索 引 原 理 、 表 空 
间 的 组 成 等 各 种 基础 知识 ， 如 果 大 家 对 这 些 东西 理解 的 不 透彻 ， 那 么 阅读 下 边 的 文字 可 能 会 有 些 吃力 ， 为 保证 您 
的 阅读 体验 ， 请 确保 自己 已 经 掌握 了 我 前 边 啼 忠 的 这 些 知识 。 


20.2 redo 日 志 是 个 哈 


我 们 知道 InnoDB 存储 引擎 是 以 页 为 单位 来 管理 存储 空间 的 ， 我 们 进行 的 增删 改 查 操作 其 实 本 质 上 都 是 在 访问 页 
面 (包括 读 页 面 、 写 页 面 、 创 建新 页 面 等 操作 ) 。 我 们 前 边 啼 明 Buffer Pool 的 时 候 说 过 ， 在 真正 访问 页 面 之 
前 ， 需 要 把 在 磁盘 上 的 页 缓存 到 内 存 中 的 Buffer Pool 之 后 才 可 以 访问 。 但 是 在 啼 叮 事务 的 时 候 又 强调 过 一 个 称 
之 为 持久 性 的 特性 ， 就 是 说 对 于 一 个 已 经 提交 的 事务 ， 在 事务 提交 后 即使 系统 发 生 了 崩溃 ， 这 个 事务 对 数据 库 
中 所 做 的 更 改 也 不 能 丢失 。 但 是 如 果 我 们 只 在 内 存 的 Buffer Pool 中 修改 了 页 面 ， 假 设 在 事务 提交 后 突然 发 生 了 
某 个 故障 ， 导 致 内 存 中 的 数据 都 失效 了 ， 那 么 这 个 已 经 提交 了 的 事务 对 数据 库 中 所 做 的 更 改 也 就 跟着 丢失 了 ， 这 
是 我 们 所 不 能 忍受 的 ( 想 想 ATM 机 已 经 提示 狗 哥 转账 成 功 ， 但 之 后 由 于 服务 器 出 现 故 障 ， 重 启 之 后 猫 爷 发 现 自 己 
没收 到 钱 ， 猫 爷 就 被 砍 死 了 ) 。 那 么 如 何 保 证 这 个 持久 性 呢 ? 一 个 很 简单 的 做 法 就 是 在 事务 提交 完成 之 前 把 该 
事务 所 修改 的 所 有 页 面 都 刷新 到 磁盘 ， 但 是 这 个 简单 粗暴 的 做 法 有 些 问题 : 


。 刷新 一 个 完整 的 数据 页 太 浪 费 了 


有 时 候 我 们 仅仅 修改 了 某 个 页 面 中 的 一 个 字 节 ， 但 是 我 们 知道 在 InnoDB 中 是 以 页 为 单位 来 进行 磁盘 IO 的 ， 
也 就 是 说 我 们 在 该 事务 提交 时 不 得 不 将 一 个 完整 的 页 面 从 内 存 中 刷新 到 磁盘 ， 我 们 又 知道 一 个 页 面 默认 是 
16KB 大 小 ， 只 修改 一 个 字 节 就 要 刷新 16KB 的 数据 到 磁盘 上 显然 是 太 浪费 了 。 

。 随机 IO 刷 起 来 比较 慢 


一 个 事务 可 能 包含 很 多 语句 ， 即 使 是 一 条 语句 也 可 能 修改 许多 页 面 ， 倒 霉 催 的 是 该 事务 修改 的 这 些 页 面 可 能 
并 不 相 邻 ， 这 就 意味 着 在 将 某 个 事务 修改 的 Buffer Pool 中 的 页 面 刷新 到 磁盘 时 ， 需 要 进行 很 多 的 随机 IO， 
随机 IO 比 顺 序 IO 要 慢 ， 尤 其 对 于 传统 的 机 械 硬盘 来 说 。 


咋 办 呢 ” 再 次 回 到 我 们 的 初 心 : 我 们 只 是 想 让 已 经 提交 了 的 事务 对 数据 库 中 数据 所 做 的 修改 永久 生效 ， 即 使 后 来 
系统 朋 溃 ， 在 重启 后 也 能 把 这 种 修改 恢复 出 来 。 所 以 我 们 其 实 没 有 必要 在 每 次 事务 提交 时 就 把 该 事务 在 内 存 中 修 
改过 的 全 部 页 面 刷新 到 磁盘 ， 只 需要 把 修改 了 哪些 东西 记录 一 下 就 好 ， 比 方 说 某 个 事务 将 系统 表 空 间 中 的 第 100 
号 页 面 中 偏 移 量 为 1000 处 的 那个 字 节 的 值 1 改 成 2 我 们 只 需要 记录 一 下 : 





将 第 0 号 表 空 间 的 100 号 页 面 的 偏 移 量 为 1000 处 的 值 更 新 为 2 。 


这 样 我 们 在 事务 提交 时 ， 把 上 述 内 容 刷 新 到 磁盘 中 ， 即 使 之 后 系统 崩 演 了 ， 重 启 之 后 只 要 按照 上 述 内 容 所 记录 的 
步骤 重新 更 新 一 下 数据 页 ， 那 么 该 事务 对 数据 库 中 所 做 的 修改 又 可 以 被 恢复 出 来 ， 也 就 意味 着 满足 持久 性 的 要 
求 。 因 为 在 系统 奔 溃 重启 时 需要 按照 上 述 内容 所 记录 的 步骤 重新 更 新 数据 页 ， 所 以 上 述 内 容 也 被 称 之 为 重 做 日 
志 ， 英 文 名 为 redo 1og ， 我 们 也 可 以 土 洋 结合 ， 称 之 为 redo 日 志 。 与 在 事务 提交 时 将 所 有 修改 过 的 内 存 中 的 
页 面 刷 新 到 磁盘 中 相 比 ， 只 将 该 事务 执行 过 程 中 产生 的 redo 日 志 刷 新 到 磁盘 的 好 处 如 下 : 


redo 日 志 占 用 的 空间 非常 小 


存储 表 空 间 ID、 页 号 、 偏 移 量 以 及 需要 更 新 的 值 所 需 的 存储 空间 是 很 小 的 ， 关 于 redo 日 志 的 格式 我 们 稍 后 
会 详细 噶 听 ， 现 在 只 要 知道 一 条 redo 日 志 占 用 的 空间 不 是 很 大 就 好 了 。 
。 redo 日 志 是 顺序 写 入 磁盘 的 


在 执行 事务 的 过 程 中 ， 每 执行 一 条 语句 ， 就 可 能 产生 若干 条 redo 日 志 ， 这 些 日 志 是 按照 产生 的 顺序 写 入 磁 
盘 的 ， 也 就 是 使 用 顺序 IO。 


20.3 redo 日 志 格 式 





























通过 上 边 的 内 容 我 们 知道 ， redo 日 志 本 质 上 只 是 记录 了 一 下 事务 对 数据 库 做 了 哪些 修改 。 设计 InnoDB 的 大 叔 
们 针对 事务 对 数据 库 的 不 同 修改 场景 定义 了 多 种 类 型 的 redo 日 志 ， 但 是 绝 大 部 分 类 型 的 redo 日 志 都 有 下 边 这 种 
通用 的 结构 : 


redo 日 志 通 用 结 


type Soke slD lolle [sel lanlels 





各 个 部 分 的 详细 释义 如 下 : 
type : 该 条 redo 日 志 的 类 型 。 


在 MySQL 5. 7. 21 这 个 版 本 中 ， 设 计 InnoDB 的 大 叔 一 共 为 redo 日 志 设 计 了 53 种 不 同 的 类 型 ， 稍 后 会 详细 介 
绍 不 同类 型 的 redo 日 志 。 
space ID : 表 空 间 ID。 
page number : 页 号 。 
。 data : 该 条 redo 日 志 的 具体 内 容 。 


20.3.1 简单 的 redo 日 志 类 型 


我 们 前 边 介绍 InnoDB 的 记录 行 格式 的 时 候 说 过 ， 如 果 我 们 没有 为 某 个 表 显 式 的 定义 主键 ， 并 且 表 中 也 没有 定义 
Unique 键 ， 那么 InnoDB 会 自动 的 为 表 添加 一 个 称 之 为 row_id 的 隐藏 列 作为 主键 。 为 这 个 row_id 隐藏 列 赋值 
的 方式 如 下 : 


。 服务 器 会 在 内 存 中 维护 一 个 全 局 变量 ， 每 当 向 某 个 包含 隐藏 的 row_id 列 的 表 中 插入 一 条 记录 时 ， 就 会 把 该 

变量 的 值 当 作 新 记录 的 row_id 列 的 值 ， 并 且 把 该 变量 自 增 1。 

每 当 这 个 变量 的 值 为 256 的 倍数 时 ， 就 会 将 该 变量 的 值 刷 新 到 系统 表 空 间 的 页 号 为 7 的 页 面 中 一 个 称 之 为 

Max Row ID 的 属性 处 (我们 前 边 介绍 表 空 间 结构 时 详细 说 过 ) 。 

。 当 系 统 启动 时 ， 会 将 上 边 提 到 的 Max Row ID 属性 加 载 到 内 存 中 ， 将 该 值 加 上 256 之 后 赋值 给 我 们 前 边 提 到 的 
全 局 变量 (因为 在 上 次 关机 时 该 全 局 变量 的 值 可 能 大 于 Max Row ID 属性 值 ) 。 


这 个 Max Row ID 属性 占用 的 存储 空间 是 8 个 字 节 ， 当 某 个 事务 向 某 个 包含 row_id 隐藏 列 的 表 插 入 一 条 记录 ， 并 
且 为 该 记录 分 配 的 row_id 值 为 256 的 倍数 时 ， 就 会 向 系统 表 空 间 页 号 为 7 的 页 面 的 相应 偏 移 量 处 写 入 8 个 字 节 的 
值 。 但 是 我 们 要 知道 ， 这 个 写 入 实际 上 是 在 Buffer Pool 中 完成 的 ， 我 们 需要 为 这 个 页 面 的 修改 记录 一 条 redo 
日 志 ， 以 便 在 系统 奔 溃 后 能 将 已 经 提交 的 该 事务 对 该 页 面 所 做 的 修改 恢复 出 来 。 这 种 情况 下 对 页 面 的 修改 是 极其 
简单 的 ， redo 日 志 中 只 需要 记录 一 下 在 某 个 页 面 的 某 个 偏 移 量 处 修改 了 几 个 字 节 的 值 ， 具 体 被 修改 的 内 容 是 
就 好 了 ， 设 计 InnoDB 的 大 叔 把 这 种 极其 简单 的 redo 日 志 称 之 为 物理 日 志 ， 并 且 根 据 在 页 面 中 写 入 数据 的 多 少 
划分 了 几 种 不 同 的 redo 日 志 类 型 : 

















。 ( type 字段 对 应 的 十 进 制 数字 为 1 ) : 表示 在 页 面 的 某 个 偏 移 量 处 写 入 1 个 字 节 的 redo 日 志 
。 LOG 2pYT ( type 字段 对 应 的 十 进 制 数字 为 2 ) : 表示 在 页 面 的 某 个 偏 移 量 处 写 入 2 个 字 节 的 redo 日 志 
。 MOG ABYTE ( type 字段 对 应 的 十 进 制 数字 为 4 ) : 表示 在 页 面 的 某 个 偏 移 量 处 写 入 4 个 字 节 的 redo 日 志 
。 LOG apyT ( type 字段 对 应 的 十 进 制 数字 为 8 ) : 表示 在 页 面 的 某 个 偏 移 量 处 写 入 8 个 字 节 的 redo 日 志 
。 MLOG WRITE_STRING ( type 字段 对 应 的 十 进 制 数字 为 30 ) : 表示 在 页 面 的 某 个 偏 移 量 处 写 入 一 串 数据 。 








我 们 上 边 提 到 的 Max Row ID 属性 实际 占用 8 个 字 节 的 存储 空间 ， 所 以 在 修改 页 面 中 的 该 属性 时 ， 会 记录 一 条 类 型 
为 MLOG_8BYTE 的 redo 日 志 ， ML0G_8BYTE 的 redo 日 志 结构 如 下 所 示 : 


MLOG_8BYTE 类 型 的 redo 日 志 结 构 


type space ID elel=Waliln lol offset 具体 数据 





| 
表示 页 面 中 的 偏 移 量 


其 余 ML0G_1BYTE 、 MLOG 2BYTE 、 ML0G_4BYTE 类 型 的 redo 日 志 结 构 和 ML0G_8BYTE 的 类 似 ， 只 不 过 具体 数据 
中 包含 对 应 个 字 节 的 数据 罢了 。 ML0G WRITE _STRING 类 型 的 redo 日 志 表 示 写 入 一 串 数 据 ， 但 是 因为 不 能 确定 写 
入 的 具体 数据 占用 多 少 字 节 ， 所 以 需要 在 日 志 结构 中 添加 一 个 len 字段 : 


MLOG_WRITE_STRING 类 型 的 redo 上 日志 结构 


type space ID lolsle[=WalVlnlelsd offset len 





表示 具体 数据 占用 的 字 节 数 


小 贴 士 : 

只 要 将 MLOG 腿 ITE_STRING 类 型 的 redo 日 志 的 len 字 段 填 充 上 1、2、4、8 这 些 数 字 ， 就 可 以 分 别 替 代 MLOG 
_1BYTE、ML0G_2BYTE、ML0G _4BYTE、MLOG 8BYTE 这 些 类 型 的 redo 日 志 ， 为 啥 还 要 多 此 一 举 设计 这 么 多 类 
型 呢 ? 还 不 是 因为 省 空间 啊 ， 能 不 写 len 字 段 就 不 写 len 字 段 ， 省 一 个 字 节 算 一 个 字 节 。 





20.3.2 复杂 一 些 的 redo 日 志 类 型 


有 时 候 执 行 一 条 语句 会 修改 非常 多 的 页 面 ， 包 括 系统 数据 页 面 和 用 户 数据 页 面 (用户 数 据 指 的 就 是 聚 艇 索引 和 二 
级 索引 对 应 的 B+ 树 ) 。 以 一 条 INSERT 语句 为 例 ， 它 除了 要 向 B+ 树 的 页 面 中 插入 数据 ， 也 可 能 更 新 系统 数据 
Max Row ID 的 值 ， 不 过 对 于 我 们 用 户 来 说 ， 平 时 更 关心 的 是 语句 对 B+ 树 所 做 更 新 : 


。 表 中 包含 多 少 个 索引 ， 一 条 INSERT 语句 就 可 能 更 新 多 少 棵 B+ 树 。 

。 针对 某 一 棵 B+ 树 来 说 ， 既 可 能 更 新 叶子 节点 页 面 ， 也 可 能 更 新 内 节点 页 面 ， 也 可 能 创建 新 的 页 面 (在 该 记 
录 插 入 的 叶子 节点 的 剩余 空间 比较 少 ， 不 足以 存放 该 记录 时 ， 会 进行 页 面 的 分 裂 ， 在 内 节点 页 面 中 添加 目录 
项 记录 ) 。 


在 语句 执行 过 程 中 ， INSERT 语句 对 所 有 页 面 的 修改 都 得 保存 到 redo 日 志 中 去 。 这 句 话说 的 比较 轻巧 ， 做 起 来 可 
就 比较 麻烦 了 ， 比 方 说 将 记录 插入 到 聚 艇 索引 中 时 ， 如 果 定 位 到 的 叶子 节点 的 剩余 空间 足够 存储 该 记录 时 ， 那 么 
只 更 新 该 叶子 节点 页 面 就 好 ， 那 么 只 记录 一 条 ML0OG_WRITE_STRING 类 型 的 redo 日 志 ， 表 明 在 页 面 的 某 个 偏 移 量 


处 增加 了 哪些 数据 就 好 了 么 ? 那 就 too young too naive 了 ~ 别 忘 了 一 个 数据 页 中 除了 存储 实际 的 记录 之 后 ， 还 有 
什么 File Header 、 Page Header 、 Page Directory 等 等 部 分 (在 路 叫 数 据 页 的 章节 有 详细 讲解 ) ， 所 以 每 往 
叶子 节点 代表 的 数据 页 里 插入 一 条 记录 时 ， 还 有 其 他 很 多 地 方 会 跟着 更 新 ， 比 如 说 : 


。 可 能 更 新 Page Directory 中 的 模 信 息 。 

。 Page Header 中 的 各 种 页 面 统 计 信 息 ， 比 如 PAGE N_DIR_SLOTS 表示 的 槽 数量 可 能 会 更 改 ， PAGE_HEAP_TOP 
代表 的 还 未 使 用 的 空间 最 小 地 址 可 能 会 更 改 ， PAGE_N_HEAP 代表 的 本 页 面 中 的 记录 数量 可 能 会 更 改 ， 吧 啦 吧 
啦 ， 各 种 信息 都 可 能 会 被 修改 。 

。 我 们 知道 在 数据 页 里 的 记录 是 按照 索引 列 从 小 到 大 的 顺序 组 成 一 个 单 向 链表 的 ， 每 插入 一 条 记录 ， 还 需要 更 
新 上 一 条 记录 的 记录 头 信息 中 的 next_record 属性 来 维护 这 个 单 向 链表 。 

。 还 有 别 的 吧 啦 吧 啦 的 更 新 的 地 方 ， 就 不 一 一 踢 明了 .… 


画 一 个 简易 的 示意 图 就 像 是 这 样 : 


第 一 个 被 修改 的 字 节 


这 种 加 粗 的 块 代表 
已 经 被 修改 的 数据 


未 修改 的 数据 页 


将 记录 插入 数据 页 后 


> 





最 后 一 个 被 修改 的 字 节 


说 了 这 么 多 ， 就 是 想 表 达 : 把 一 条 记录 插入 到 一 个 页 面 时 需要 更 改 的 地 方 非常 多 。 这 时 我 们 如 果 使 用 上 边 介绍 的 
简单 的 物理 redo 日 志 来 记录 这 些 修改 时 ， 可 以 有 两 种 解决 方案 : 
。 方案 一 : 在 每 个 修改 的 地 方 都 记录 一 条 redo 日 志 。 


也 就 是 如 上 图 所 示 ， 有 多 少 个 加 粗 的 块 ， 就 写 多 少 条 物理 redo 日 志 。 这 样子 记录 redo 日 志 的 缺点 是 显 而 易 
见 的 ， 因 为 被 修改 的 地 方 是 在 太 多 了 ， 可 能 记录 的 redo 日 志 占 用 的 空间 都 比 整 个 页 面 占 用 的 空间 都 多 了 ~ 

。 方案 二 : 将 整个 页 面 的 第 一 个 被 修改 的 字 节 到 最 后 一 个 修改 的 字 节 之 间 所 有 的 数据 当成 是 一 条 物理 redo 
日 志 中 的 具体 数据 。 


从 图 中 也 可 以 看 出 来 ， 第 一 个 被 修改 的 字 节 到 最 后 一 个 修改 的 字 节 之 间 仍 然 有 许多 没有 修改 过 的 数据 ,我 
们 把 这 些 没有 修改 的 数据 也 加 入 到 redo 日 志 中 去 央 不 是 太 浪费 了 ~ 


正 因 为 上 述 两 种 使 用 物理 redo 日 志 的 方式 来 记录 某 个 页 面 中 做 了 哪些 修改 比较 浪费 ， 设 计 InnoDB 的 大 叔 本 着 勤 
俭 节约 的 初 心 ， 提 出 了 一 些 新 的 redo 日 志 类 型 ， 比 如 : 


。 MLOG REC INSERT (对 应 的 十 进 制 数字 为 9 ) : 表示 插入 一 条 使 用 非 紧凑 行 格式 的 记录 时 的 redo 日 志 类 


型 。 
。 ML0G_COMP_REC_INSERT 〈 对 应 的 十 进 制 数 字 为 38 ) : 表示 插入 一 条 使 用 紧凑 行 格式 的 记录 时 的 redo 日 志 
小 贴 士 : 


Redundant 是 一 种 比较 原始 的 行 格式 ， 它 就 是 非 紧 凑 的 。 而 Compact、Dynamic 以 及 Compressed 行 格式 是 
较 新 的 行 格式 ， 它 们 是 紧凑 的 〈 占 用 更 小 的 存储 空间 ) 。 





。 MLOG_COMP_PAGE CREATE (type 字段 对 应 的 十 进 制 数字 为 58 ) : 表示 创建 一 个 存储 紧凑 行 格 式 记录 的 页 

面 的 redo 日 志 类 型 。 

。 MLOG_COMP_REC_DELETE (〈 type 字段 对 应 的 十 进 制 数字 为 42 ) : 表示 删除 一 条 使 用 紧凑 行 格式 记录 的 

redo 日 志 类 型 。 

。 MLOG_COMP LIST _START_DELETE ( type 字段 对 应 的 十 进 制 数字 为 44 ) : 表示 从 某 条 给 定 记录 开始 删除 页 

面 中 的 一 系列 使 用 紧凑 行 格式 记录 的 redo 日 志 类 型 。 

。 MLOG_COMP_LIST_END_DELETE ( type 字段 对 应 的 十 进 制 数字 为 43 .), 2 与 MLOG COMP LIST START DELETE 
类 型 的 redo 日 志 呼 应 ， 表 示 删 除 一 系列 记录 直到 MLOG_COMP_LIST_END_DELETE 类 型 的 redo 日 志 对 应 的 记 
录 为 止 。 


小 贴 士 : 

我 们 前 边 路 听 InnoDB 数 据 页 格式 的 时 候 重点 强调 过 ， 数 据 页 中 的 记录 是 按照 索引 列 大 小 的 顺序 组 成 单 向 
链表 的 。 有 时 候 我 们 会 有 删除 索引 列 的 值 在 某 个 区 间 范 围 内 的 所 有 记录 的 需求 ， 这 时 候 如 果 我 们 每 删除 
一 条 记录 就 写 一 条 redo 日 志 的 话 ， 效 率 可 能 有 点 低 ， 所 以 提出 MLOG_COMP LIST _START_DELETE 和 MLOG_C0 
MP_LIST_END_DELETE 类 型 的 redo 日 志 ， 可 以 很 大 程度 上 减少 redo 日 志 的 条 数 。 





























































































































。 ML0G_ZIP_PAGE COMPRESS (type 字段 对 应 的 十 进 制 数字 为 51 ) : 表示 压缩 一 个 数据 页 的 redo 日 志 类 
型 。 


有 很 多 很 多 种 类 型 ， 这 就 不 列举 了 ， 等 用 到 再 说 哈 ~ 
这 些 类 型 的 redo 日 志 既 包含 物理 层面 的 意思 ， 也 包含 逻辑 层面 的 意思 ， 有 具体 指 : 














。 物理 层面 看 ， 这 些 日 志 都 指明 了 对 哪个 表 空 间 的 哪个 页 进行 了 修改 。 
。 逻辑 层面 看 ， 在 系统 奔 溃 重启 时 ， 并 不 能 直接 根据 这 些 日 志 里 的 记载 ， 将 页 面 内 的 某 个 偏 移 量 处 恢复 成 某 个 
数据 ， 而 是 需要 调用 一 些 事先 准备 好 的 函数 ， 执 行 完 这 些 函 数 后 才 可 以 将 页 面 恢复 成 系统 奔 溃 前 的 样子 。 


大 家 看 到 这 可 能 有 些 懂 逼 ， 我 们 还 是 以 类 型 为 MLOG COMP_REC_INSERT 这 个 代表 插入 一 条 使 用 紧凑 行 格 式 的 记录 
时 的 redo 日 志 为 例 来 理解 一 下 我 们 上 边 所 说 的 物理 层面 和 逻辑 层面 到 底 是 个 啥 意思 。 废 话 少 说 ， 直 接 看 一 下 
这 个 类 型 为 ML0G_COMP_REC_ INSERT 的 redo 日 志 的 结构 (由 于 字段 太 多 了 ， 我 们 把 它们 竖 着 看 效果 好 些 ) : 




















MLOG_COMP_REC_INSERT 类 型 的 redo 日 志 半 构 


type 


space ID 


page number 


end_seg_len 从 该 字段 可 以 计算 出 当前 记录 总 共 占 用 存储 空间 的 大 小 


info bits 表示 记录 头 信 息 的 前 4 个 比特 位 的 值 以 及 record type 的 值 
extra_size 


记录 的 额外 信息 占用 的 存储 空间 大 小 


mismatch index 


为 了 节省 redo 日 志 大 小 而 设立 的 字段 ， 大 家 现在 可 以 把 略 


n_fields | 该 条 记录 有 多 少 个 字段 
n_uniques | 决定 该 记录 唯一 的 字段 数量 
field1_len 
field2_len 
各 个 字段 的 占用 存储 空间 的 大 小 

fieldn_len 
offset | 前 一 条 记录 的 地 址 

| 

| 

| 

| 


记录 的 真实 数据 





这 个 类 型 为 ML0G_COMP_REC_INSERT 的 redo 日 志 结构 有 几 个 地 方 需要 大 家 注意 : 


我 们 前 边 在 啼 轧 索引 的 时 候 说 过 ， 在 一 个 数据 页 里 ， 不 论 是 叶子 节点 还 是 非 叶子 节点 ， 记 录 都 是 按照 索引 列 
从 小 到 大 的 顺序 排序 的 。 对 于 二 级 索引 来 说 ， 当 索引 列 的 值 相 同时 ， 记 录 还 需要 按照 主键 值 进行 排序 。 图 中 
n_uniques 的 值 的 含义 是 在 一 条 记录 中 ， 需 要 几 个 字段 的 值 才能 确保 记录 的 唯一 性 ， 这 样 当 插入 一 条 记录 时 
就 可 以 按照 记录 的 前 n_uniques 个 字段 进行 排序 。 对 于 聚 簇 索 引 | 来 说 ，。 n_uniques 的 值 为 主键 的 列 数 ， 对 于 
其 他 二 级 索引 来 说 ， 该 值 为 索引 列 数 + 主键 列 数 。 这 里 需要 注意 的 是 ， 唯 一 二 级 索引 的 值 可 能 为 NULL ， 所 以 
该 值 仍然 为 索引 列 数 + 主 键 列 数 。 

fieldl_len ”fieldn_len 代表 着 该 记录 若干 个 字段 占用 存储 空间 的 大 小 ， 需 要 注意 的 是 ， 这 里 不 管 该 字段 
的 类 型 是 固定 长 度 大 小 的 (比如 INT ) ， 还 是 可 变 长 度 大 小 (比如 VARCHAR (M) ) 的 ， 该 字段 占用 的 大 小 始 
终 要 写 入 redo 日 志 中 。 

offset 代表 的 是 该 记录 的 前 一 条 记录 在 页 面 中 的 地 址 。 为 啥 要 记录 前 一 条 记录 的 地 址 呢 ? 这 是 因为 每 向 数 
据 页 插入 一 条 记录 ， 都 需要 修改 该 页 面 中 维护 的 记录 链表 ， 每 条 记录 的 记录 头 信息 中 都 包含 一 个 称 为 
next_record 的 属性 ， 所 以 在 插入 新 记录 时 ， 需 要 修改 前 一 条 记录 的 next_record 属性 。 

我 们 知道 一 条 记录 其 实 由 额外 信息 和 真实 数据 这 两 部 分 组 成 ， 这 两 个 部 分 的 总 大 小 就 是 一 条 记录 占用 存储 
空间 的 总 大 小 。 通 过 end_seg_len 的 值 可 以 间接 的 计算 出 一 条 记录 占用 存储 空间 的 总 大 小 ， 为 啥 不 直接 存储 
一 条 记录 占用 存储 空间 的 总 大 小 呢 ? 这 是 因为 写 redo 日 志 是 一 个 非常 频繁 的 操作 ， 设 计 InnoDB 的 大 叔 想 方 
设法 想 减 小 redo 日 志 本 身 占 用 的 存储 空间 大 小 ， 所 以 想 了 一 些 弯 弯 绕 的 算法 来 实现 这 个 目标 ， 


end_seg_len 这 个 字段 就 是 为 了 节省 redo 日 志 人 存储 空间 而 提出 来 的 。 至 于 具体 设计 InnoDB 的 大 叔 到 底 是 
用 了 什么 神奇 魔法 减 小 redo 日 志 大 小 的 ， 我 们 这 就 不 多 噶 明 了 ， 因 为 的 确 有 那么 一 丢 丢 小 复杂 ， 说 清楚 还 


。 mismatch_index 的 值 也 是 为 了 节省 redo 日 志 的 大 小 而 设立 的 ， 大 家 可 以 忽略 。 


很 显然 这 个 类 型 为 MLOG_COMP_REC_INSERT 的 redo 日 志 并 没有 记录 PAGE_N_DIR_SLOTS 的 值 修改 为 了 哗 ， 
PAGE_HEAP_TOP 的 值 修改 为 了 哈 ， PAGE_N_HEAP 的 值 修 改 为 了 只 等 等 这 些 信息 ， 而 只 是 把 在 本 页 面 中 插入 一 条 记 
录 所 有 必 备 的 要 素 记 了 下 来 ， 之 后 系统 奔 溃 重启 时 ， 服 务 器 会 调用 相关 向 某 个 页 面 插入 一 条 记录 的 那个 函数 ， 而 
redo 日 志 中 的 那些 数据 就 可 以 被 当成 是 调用 这 个 函数 所 需 的 参数 ， 在 调用 完 该 函数 后 ， 页 面 中 的 

PAGE N_DIR_SLOTS 、 PAGE_HEAP_TOP 、 PAGE N_HEAP 等 等 的 值 也 就 都 被 恢复 到 系统 奔 演 前 的 样子 了 。 这 就 是 所 
谓 的 逻辑 日 志 的 意思 。 














20.3.3 redo 日 志 格 式 小 结 


昌 然 上 边 说 了 一 大 堆 关 于 redo 日 志 格 式 的 内 容 ， 但 是 如 果 你 不 是 为 了 写 一 个 解析 redo 日 志 的 工具 或 者 自己 开发 
一 套 redo 日 志 系统 的 话 ， 那 就 没 必要 把 InnoDB 中 的 各 种 类 型 的 redo 日 志 格 式 都 研究 的 透 透 的 ， 没 那个 必要 。 
上 边 我 只 是 象征 性 的 介绍 了 几 种 类 型 的 redo 日 志 格 式 ， 目 的 还 是 想 让 大 家 明白 : redo 日 志 会 把 事务 在 执行 过 程 
中 对 数据 库 所 做 的 所 有 修改 都 记录 下 来 ， 在 之 后 系统 奔 演 重启 后 可 以 把 事务 所 做 的 任何 修改 都 恢复 出 来 。 


小 贴 士 : 

为 了 节省 redo 日 志 占 用 的 存储 空间 大 小 ， 设 计 InnoDB 的 大 叔 对 redo 日 志 中 的 某 些 数据 还 可 能 进行 压缩 处 
理 ， 比 方 说 spacd ID 和 page number 一 般 占 用 4 个 字 节 来 存储 ， 但 是 经 过 压缩 后 ， 可 能 使 用 更 小 的 空间 来 
存储 。 具 体 压缩 算法 就 不 啼 晓 了 。 

































































20.4 Mini-Transaction 


20.4.1 以 组 的 形式 写 入 redo 日 志 


语句 在 执行 过 程 中 可 能 修改 若干 个 页 面 。 比 如 我 们 前 边 说 的 一 条 INSERT 语句 可 能 修改 系统 表 空 间 页 号 为 7 的 页 
面 的 Max Row ID 属性 (当然 也 可 能 更 新 别 的 系统 页 面 ， 只 不 过 我 们 没有 都 列举 出 来 而 已 ) ， 还 会 更 新 聚 艇 索引 
和 二 级 索引 对 应 B+ 树 中 的 页 面 。 由 于 对 这 些 页 面 的 更 改 都 发 生 在 Buffer Pool 中 ， 所 以 在 修改 完 页面 之 后 ， 需 
要 记录 一 下 相应 的 redo 日 志 。 在 执行 语句 的 过 程 中 产生 的 redo 日 志 被 设计 InnoDB 的 大 叔 人 为 的 划分 成 了 若干 
个 不 可 分 割 的 组 ， 比 如 : 


。 更 新 Max Row ID 属性 时 产生 的 redo 日 志 是 不 可 分 割 的 。 

。 向 聚 篮 索 引 对 应 B+ 树 的 页 面 中 插入 一 条 记录 时 产生 的 redo 日 志 是 不 可 分 割 的 。 

。 向 某 个 二 级 索引 对 应 B+ 树 的 页 面 中 插入 一 条 记录 时 产生 的 redo 日 志 是 不 可 分 割 的 。 
。 还 有 其 他 的 一 些 对 页 面 的 访问 操作 时 产生 的 redo 日 志 是 不 可 分 割 的。。。 





怎么 理解 这 个 不 可 分 割 的 意思 呢 ? 我们 以 向 某 个 索引 对 应 的 B+ 树 插 入 一 条 记录 为 例 ， 在 向 B+ 树 中 插入 这 条 记 
录 之 前 ， 需 要 先 定位 到 这 条 记录 应 该 被 插入 到 哪个 叶子 节点 代表 的 数据 页 中 ， 定 位 到 具体 的 数据 页 之 后 ， 有 两 种 
可 能 的 情况 : 


。 情况 一 : 该 数据 页 的 剩余 的 空 闪 空间 充足 ， 足 够 容纳 这 一 条 待 插 入 记录 ， 那 么 事情 很 简单 ， 直 接 把 记录 插入 
到 这 个 数据 页 中 ， 记 录 一 条 类 型 为 ML0G_COMP_REC_INSERT 的 redo 日 志 就 好 了 ， 我 们 把 这 种 情况 称 之 为 乐 
观 插入 。 假 如 某 个 索引 对 应 的 B+ 树 长 这 样 : 











一 一， 
本 且 且 
考 一 一 一 


现在 我 们 要 插入 一 条 键 值 为 10 的 记录 ， 很 显然 需要 被 插入 到 页 b 中 ， 由 于 页 b 现在 有 足够 的 空间 容纳 一 条 
记录 ， 所 以 直接 将 该 记录 插入 到 页 b 中 就 好 了 ， 就 像 这 样 : 
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(这 是 新 插入 的 记录 


情况 二 : 该 数据 页 剩余 的 空闲 空间 不 足 ， 那 么 事情 就 悲剧 了 ， 我 们 前 边 说 过 ， 遇 到 这 种 情况 要 进行 所 谓 的 页 
分 裂 操作 ， 也 就 是 新 建 一 个 叶子 节点 ， 然 后 把 原先 数据 页 中 的 一 部 分 记录 复制 到 这 个 新 的 数据 页 中 ， 然 后 再 
把 记录 插入 进去 ， 把 这 个 叶子 节点 插入 到 叶子 节点 链表 中 ， 最 后 还 要 在 内 节点 中 添加 一 条 目录 项 记录 指向 
这 个 新 创建 的 页 面 。 很 显然 ， 这 个 过 程 要 对 多 个 页 面 进行 修改 ， 也 就 意味 着 会 产生 多 条 redo 日 志 ， 我 们 把 
这 种 情况 称 之 为 悲观 插入 。 假 如 某 个 索引 对 应 的 B+ 树 长 这 样 : 
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此 时 页 b 中 塞 满 了 记录 ， 


现在 我 们 要 插入 一 条 键 值 为 10 的 记录 ， 很 显然 需要 被 插入 到 页 b 中 ， 但 是 从 图 中 也 可 以 看 出 来 ， 此 时 页 b 
已 经 塞 满 了 记录 ， 没 有 更 多 的 空闲 空间 来 容纳 这 条 新 记录 了 ， 所 以 我 们 需要 进行 页 面 的 分 裂 操作 ， 就 像 这 
样 : 





这 个 目录 项 目 记录 是 新 
增 的 





将 一 半 左右 的 记录 复制 这 个 页 是 新 建 的 ， 里 边 
到 页 d 中 去 ， 就 腾 出 了 空 的 记录 是 从 页 b 中 复制 的 
闲 空间 插入 新 记录 


如 果 作 为 内 节点 的 页 a 的 剩余 空闲 空间 也 不 足以 容纳 增加 一 条 目录 项 记录 ， 那 需要 继续 做 内 节点 页 a 的 分 
裂 操作 ， 也 就 意味 着 会 修改 更 多 的 页 面 ， 从 而 产生 更 多 的 redo 日 志 。 另 外 ， 对 于 悲观 插入 来 说 ， 由 于 需要 
新 申请 数据 页 ， 还 需要 改动 一 些 系统 页 面 ， 比 方 说 要 修改 各 种 段 、 区 的 统计 信息 信息 ， 各 种 链表 的 统计 信息 
(比如 什么 FREE 链表 、 FSP_FREE_FRAG 链表 吧 啦 吧 啦 我 们 在 踪 功 表 空 间 那 一 章 中 介绍 过 的 各 种 东 东 ) 等 等 
等 等 ， 反 正 总 共 需 要 记录 的 redo 日 志 有 二 、 三 十 条 。 


小 贴 士 : 


其 实 不 光 是 悲观 插入 一 条 记录 会 生成 许多 条 redo 日 志 ， 设 计 InnoDB 的 大 叔 为 了 其 他 的 一 些 功能 ， 在 乐观 
插入 时 也 可 能 产生 多 条 redo 日 志 〈 具 体 是 为 了 什么 功能 我 们 就 不 多 说 了 ， 要 不 篇 幅 就 受 不 了 7 了 ~) 。 



































设计 InnoDB 的 大 叔 们 认为 向 某 个 索引 对 应 的 B+ 树 中 插入 一 条 记录 的 这 个 过 程 必须 是 原子 的 ， 不 能 说 插 了 一 半 之 
后 就 停止 了 。 比 方 说 在 悲观 插入 过 程 中 ， 新 的 页 面 已 经 分 配 好 了 ， 数 据 也 复制 过 去 了 ， 新 的 记录 也 插入 到 页 面 中 
了 ， 可 是 没有 向 内 节点 中 插入 一 条 目录 项 记录 ， 这 个 插入 过 程 就 是 不 完整 的 ， 这 样 会 形成 一 棵 不 正确 的 B+ 树 。 
我 们 知道 redo 日 志 是 为 了 在 系统 奔 溃 重启 时 恢复 崩溃 前 的 状态 ， 如 果 在 悲观 插入 的 过 程 中 只 记录 了 一 部 分 redo 
日 志 ， 那 么 在 系统 奔 溃 重启 时 会 将 索引 对 应 的 B+ 树 恢复 成 一 种 不 正确 的 状态 ， 这 是 设计 InnoDB 的 大 叔 们 所 不 能 
忍受 的 。 所 以 他 们 规定 在 执行 这 些 需要 保证 原子 性 的 操作 时 必须 以 组 的 形式 来 记录 的 redo 日 志 ， 在 进行 系统 奔 
溃 重 启 恢复 时 ， 针 对 某 个 组 中 的 redo 日 志 ， 要 么 把 全 部 的 日 志 都 恢复 掉 ， 要 么 一 条 也 不 恢复 。 怎 么 做 到 的 呢 ? 
这 得 分 情况 讨论 : 

。 有 的 需要 保证 原子 性 的 操作 会 生成 多 条 redo 日 志 ， 比 如 向 某 个 索引 对 应 的 B+ 树 中 进行 一 次 悲观 插入 就 需要 

生成 许多 条 redo 日 志 。 


如 何 把 这 些 redo 日 志 划 分 到 一 个 组 里 边 儿 呢 ? 设计 InnoDB 的 大 叔 做 了 一 个 很 简单 的 小 把 戏 ， 就 是 在 该 组 中 
的 最 后 一 条 redo 日 志 后 边 加 上 一 条 特殊 类 型 的 redo 日 志 ， 该 类 型 名 称 为 ML0G_MULTI_REC_END ， type 字 
段 对 应 的 十 进 制 数字 为 31 ， 该 类 型 的 redo 日 志 结构 很 简单 ， 只 有 一 个 type 字段 : 


MLOG_MULTI_REC_END 类 型 的 redo 日 志 结 构 


type 


所 以 某 个 需要 保证 原子 性 的 操作 产生 的 一 系列 redo 日 志 必 须要 以 一 个 类 型 为 ML0G MULTI REC END 结尾 ,就 
像 这 样 : 


这 是 几 条 普通 类 型 的 redo 日 志 类 型 为 MLOG_MULTI_REC_END 的 redo 日 志 
| 


redo 1 MLOG_MUL 








TLREC_END 





整个 是 一 条 完整 的 redo 日 志 


这 样 在 系统 奔 溃 重启 进行 恢复 时 ， 只 有 当 解 析 到 类 型 为 ML0G_MULTI_REC_END 的 redo 日 志 ， 才 认为 解析 到 了 
一 组 完整 的 redo 日 志 ， 才 会 进行 恢复 。 否 则 的 话 直接 放弃 前 边 解析 到 的 redo 日 志 。 
有 的 需要 保证 原子 性 的 操作 只 生成 一 条 redo 日 志 ， 比 如 更 新 Max Row ID 属性 的 操作 就 只 会 生成 一 条 


DR 下 redo 
日 志 
Io 


其 实在 一 条 日 志 后 边 跟 一 个 类 型 为 MLO0G_MULTI_REC_END 的 redo 日 志 也 是 可 以 的 ， 不 过 设计 InnoDB 的 大 叔 
比较 勤俭 节约 ， 他 们 不 想 浪 费 一 个 比特 位 。 别 忘 了 虽然 redo 日 志 的 类 型 比较 多 ， 但 撑 死 了 也 就 是 几 十 种 ， 
是 小 于 127 这 个 数字 的 ， 也 就 是 说 我 们 用 7 个 比特 位 就 足以 包括 所 有 的 redo 日 志 类 型 ， 而 type 字段 其 实 是 
占用 1 个 字 节 的 ， 也 就 是 说 我 们 可 以 省 出 来 一 个 比特 位 用 来 表示 该 需要 保证 原子 性 的 操作 只 产生 单一 的 一 条 
redo 日 志 ， 示 意图 如 下 : 


type 字 段 占 用 8 个 比特 位 





这 1 个 比特 位 代表 是 否 是 一 条 单一 的 日 志 这 7 个 比特 位 代表 redo 日 志 的 类 型 


如 果 type 字段 的 第 一 个 比特 位 为 1 ， 代 表 该 需要 保证 原子 性 的 操作 只 产生 了 单一 的 一 条 redo 日 志 ， 否 则 
表示 该 需要 保证 原子 性 的 操作 产生 了 一 系列 的 redo 日 志 。 


20.4.2 Mini-Transaction 的 概念 


设计 MySQL 的 大 叔 把 对 底层 页 面 中 的 一 次 原子 访问 的 过 程 称 之 为 一 个 Mini-Transaction ， 简 称 mtr ， 比 如 上 边 
所 说 的 修改 一 次 Max Row ID 的 值 算是 一 个 Mini-Transaction ， 向 某 个 索引 对 应 的 B+ 树 中 揪 入 一 条 记录 的 过 程 
也 算是 一 个 Mini-Transaction 。 通 过 上 边 的 叙述 我 们 也 知道 ， 一 个 所 谓 的 mtr 可 以 包含 一 组 redo 日 志 ， 在 进 
行 奔 溃 恢复 时 这 一 组 redo 日 志 作为 一 个 不 可 分 割 的 整体 。 


一 个 事务 可 以 包含 若干 条 语句 ， 每 一 条 语句 其 实 是 由 若干 个 mtr 组 成 ， 每 一 个 mtr 又 可 以 包含 若干 条 redo 日 
志 ， 画 个 图 表示 它们 的 关系 就 是 这 样 : 


redo_1 
redo_2 
mtr 1 一 
mtr 2 redo _n 
语句 一 一 
本 本 村 
mtr_n 
语句 二 
事务 
加 本 国 
语句 n 





20.5 _ redo 日志 的 写 入 过 程 


20.5.1 redo log block 


设计 InnoDB 的 大 叔 为 了 更 好 的 进行 系统 奔 溃 恢复 ， 他 们 把 通过 mtr 生成 的 redo 日 志 都 放 在 了 大 小 为 512 字 节 
的 页 中 。 为 了 和 我 们 前 边 提 到 的 表 空 间 中 的 页 做 区 别 ， 我 们 这 里 把 用 来 存储 redo 日 志 的 页 称 为 block (你 心 
里 清楚 页 和 block 的 意思 其 实 差不多 就 行 了 ) 。 一 个 redo log block 的 示意 图 如 下 : 


redo log block 结 构 


12 字 节 [eye 站 el[eiw ai:[e[s1 
12 B 


总 共 是 512B 496 字 节 log block body 


S08 B 


4 字 节 [ele Nlellolo tll[ 
S12 B 





真正 的 redo 日 志 都 是 存储 到 占用 496 字 节 大 小 的 log block body 中 ， 图 中 的 log block header 和 log block 
trailer 存储 的 是 一 些 管理 信息 。 我 们 来 看 看 这 些 所 谓 的 管理 信息 都 是 哈 : 


Kelell:l elel. lp. MNe, 革 4 字 节 
redo log block 结 构 4B 

. LOG_BLOCK_HDR_DATA_LEN +} 2 字 节 
6B 

12B log block header LOG_BLOCK_FIRST_REC_GROUP +} 2 字 节 
8B 

LOG_BLOCK_CHECKPOINT_NO 区 4 字 节 
12 B 
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508B 
[ele Mlellelol ,ats1| [=] 





S12 B 508B 


ole:lKele ,els [30 SVN 和 4 字 节 
512B 


其 中 log block header 的 几 个 属性 的 意思 分 别 如 下 : 


。 L0G_BLOCK_HDR_NO : 每 一 个 block 都 有 一 个 大 于 0 的 唯一 标号 ， 本 属性 就 表示 该 标号 值 。 

。 L0G_BLOCK_HDR_DATA_LEN : 表示 block 中 已 经 使 用 了 多 少 字 节 ， 初 始 值 为 12 (因为 log block body 从 第 
12 个 字 节 处 开始 ) 。 随 着 往 block 中 写 入 的 redo 日 志 越 来 也 多 ， 本 属性 值 也 跟着 增长 。 如 果 log block body 
已 经 被 全 部 写 满 ， 那 么 本 属性 的 值 被 设置 为 512 。 

。 L0G BLOCK_FIRST_REC_GROUP : 一 条 redo 日 志 也 可 以 称 之 为 一 条 redo 日 志 记 录 ( redo log record ) ， 
一 个 mtr 会 生产 多 条 redo 日 志 记 录 ， 这 些 redo 日 志 记录 被 称 之 为 一 个 redo 日 志 记录 组 ( redo log 
record group ) 。 LOG_BLOCK_FIRST_REC_GROUP 就 代表 该 block 中 第 一 个 mtr 生成 的 redo 日 志 记 录 组 的 偏 
移 量 (其 实 也 就 是 这 个 block 里 第 一 个 mtr 生成 的 第 一 条 redo 日 志 的 偏 移 量 ) 。 


。 L0G BLOCK CHECKPOINT_NO : 表示 所 谓 的 checkpoint 的 序号 ， checkpoint 是 我 们 后 续 内 容 的 重点 ， 现 在 
先 不 用 清楚 它 的 意思 ， 稍 安 勿 躁 。 











log block trailer 中 属性 的 意思 如 下 : 
。 L0G_BLOCK_CHECKSUM : 表示 block 的 校 验 值 ， 用 于 正确 性 校 验 ， 我 们 暂时 不 关心 它 。 
20.5.2 redo 日 志 缓 冲 区 
我 们 前 边 说 过 ， 设 计 InnoDB 的 大 叔 为 了 解决 磁盘 速度 过 慢 的 问题 而 引入 了 Buffer Pool 。 同 理 ， 写 入 redo 日 
志 时 也 不 能 直接 直接 写 到 磁盘 上 ， 实 际 上 在 服务 器 启动 时 就 向 操作 系统 申请 了 一 大 片 称 之 为 redo log buffer 的 


连续 内 存 空间 ， 翻 译 成 中 文 就 是 redo 日 志 缓冲 区 ， 我 们 也 可 以 简称 为 log buffer 。 这 片 内 存 空间 被 划分 成 若干 
个 连续 的 redo log block ， 就 像 这 样 : 


log buffer 结 构 示 意图 


log block header log block header log block header log block header log block header 


log block body log block body log block body log block body log block body 


log block trailer log block trailer log block trailer log block trailer log block trailer 





内 存 中 的 若干 个 连续 的 redo log block 


我 们 可 以 通过 启动 参数 innodb log buffer size 来 指定 log buffer 的 大 小 ， 在 MySQL 5. 7. 21 这 个 版 本 中 ， 该 
启动 参数 的 默认 值 为 16MB 。 


20.5.3 redo 日 志 写 入 log buffer 


向 log buffer 中 写 入 redo 日 志 的 过 程 是 顺序 的 ， 也 就 是 先 往 前 边 的 block 中 写 ， 当 该 block 的 空闲 空间 用 完 之 后 
再 往 下 一 个 block 中 写 。 当 我 们 想 往 log buffer 中 写 入 redo 日 志 时 ， 第 一 个 遇 到 的 问题 就 是 应 该 写 在 哪个 
block 的 哪个 偏 移 量 处 ， 所 以 设计 InnoDB 的 大 叔 特意 提供 了 一 个 称 之 为 buf _free 的 全 局 变量 ， 该 变量 指明 后 
续 写 入 的 redo 日 志 应 该 写 入 到 log buffer 中 的 哪个 位 置 ， 如 图 所 示 : 


全 局 变量 buf_free 的 值 就 指向 这 里 ， 
该 位 置 之 后 就 是 空闲 的 区 域 


log buffer 示 意图 





5 
Pd 地 没有 空间 空间 了 


一 一 


我 们 前 边 说 过 一 个 mtr 执行 过 程 中 可 能 产生 若干 条 redo 日 志 ， 这 些 redo 日 志 是 一 个 不 可 分 割 的 组 ， 所 以 其 实 
并 不 是 每 生成 一 条 redo 日 志 ， 就 将 其 插入 到 log buffer 中 ， 而 是 每 个 mtr 运行 过 程 中 产生 的 日 志 先 暂时 存 到 
一 个 地 方 ， 当 该 mtr 结束 的 时 候 ， 将 过 程 中 产生 的 一 组 redo 日 志 再 全 部 复制 到 log buffer 中 。 我 们 现在 假设 
有 两 个 名 为 T1 、 T2 的 事务 ， 每 个 事务 都 包含 2 个 mtr ， 我 们 给 这 几 个 mtr 命名 一 下 : 


。 事务 Tl 的 两 个 mtr 分 别称 为 mtr Tl 1 和 mtr Tl 2。 
。 事务 T2 的 两 个 mtr 分 别称 为 mtr T2 1 和 mtr T2 2 。 


每 个 mtr 都 会 产生 一 组 redo 日 志 ， 用 示意 图 来 描述 一 下 这 些 mtr 产生 的 日 志 情 况 : 


事务 T1 的 mtr 事务 T2 的 mtr 


mtr_t1_1 产 生 的 一 组 redo 日 志 : mtr_t2_ 1 产生 的 一 组 redo 日 志 : 


mtr_t1_2 产 生 的 一 组 redo 日 志 : mtr_t2 2 产生 的 一 组 redo 日 志 : 





不 同 的 事务 可 能 是 并 发 执行 的 ， 所 以 T1 、 T2 之 间 的 mtr 可 能 是 交 蔡 执行 的 。 每 当 一 个 mtr 执行 完成 时 ， 伴 随 
该 mtr 生成 的 一 组 redo 日 志 就 需要 被 复制 到 log buffer 中 ， 也 就 是 说 不 同事 务 的 mtr 可 能 是 交替 写 入 log 
buffer 的 ， 我 们 画 个 示意 图 (为 了 美观 ， 我 们 把 一 个 mtr 中 产生 的 所 有 的 redo 日 志 当 作 一 个 整体 来 画 ) : 


log buffer 示 意图 





这 些 block 都 已 经 培 满 了 
redo 日 志 ， 没 有 空闲 空间 了 。 


全 局 变量 buf_free 现 在 移动 到 了 这 里 


意图 中 我 们 可 以 看 出 来 ， 不 同 的 mtr 产生 的 一 组 redo 日 志 占 用 的 存储 空间 可 能 不 一 样 ， 有 的 mtr 产生 的 
A 日 志 量 很 少 ， 比 如 mtr_tl_1 、 mtr_t2_1 就 被 放 到 同一 个 block 中 存储 ， 有 的 mtr 产生 的 redo 日 志 量 非常 
大 ， 比 如 mtr_tl 2 产生 的 redo 日 志 甚 至 占用 了 3 个 block 来 存储 。 














小 贴 士 : 
对 照 着 上 图 ， 自 己 分 析 一 下 每 个 block 的 LOG BLOCK HDR DATA LEN、L0OG BLOCK FIRST REC GROUP 属性 值 
都 是 什么 哈 一 


21 第 21 章 说 过 的 话 就 一 定 要 办 到 -redo 日 志 (下 ) 


标签 : _ MySQL 是 怎样 运行 的 


21.1 redo 日 志文 件 


21.1.1 redo 日 志 刷 盘 时 机 


我 们 前 边 说 mtr 运行 过 程 中 产生 的 一 组 redo 日 志 在 mtr 结束 时 会 被 复制 到 1og buffer 中 ， 可 是 这 些 日 志 总 在 
内 存 里 呆 着 也 不 是 个 办 法 ， 在 一 些 情况 下 它们 会 被 刷新 到 磁盘 里 ， 比 如 : 


。 log buffer 空间 不 足 时 


log buffer el (通过 系统 变量 innodb_log_buffer_size 指定 ) ， 如 果 不 停 的 往 这 个 有 限 大 小 
的 log buffer 里 塞 入 日 志 ， 很 快 它 就 会 被 填 满 。 设 计 InnoDB 的 大 叔 认 为 如 果 当 前 写 入 log buffer 的 
redo 日 志 量 已 经 占 满 了 oe buffer 总 容量 的 大 约 一 半 左 右 ， 就 需要 把 这 些 日 志 刷 新 到 磁盘 上 。 

。 事务 提交 时 


我 们 前 边 说 过 之 所 以 使 用 redo 日 志 主要 是 因为 它 占用 的 空间 少 ， 还 是 顺序 写 ， 在 事务 提交 时 可 以 不 把 修改 
过 的 Buffer Pool 页 面 刷新 到 磁盘 ， 但 是 为 了 保证 持久 性 ， 必 须要 把 修改 这 些 页 面 对 应 的 redo 日 志 刷 新 到 
磁盘 。 


后 台 线 程 不 停 的 刷 刷 刷 


后 台 有 一 个 线程 ， 大 约 每 秒 都 会 刷新 一 次 log buffer 中 的 redo 日 志 到 磁盘 。 


正常 关闭 服务 器 时 


做 所 谓 的 checkpoint 时 (我 们 现在 没 介绍 过 checkpoint 的 概念 ， 稍 后 会 仔细 踢 明 ， 稍 安 勿 躁 ) 
其 他 的 一 些 情况 .… 


21.1.2 redo 日 志文 件 组 


MySQL 的 数据 目录 (使 用 SHOW VARIABLES LIKE ， datadir” 查 看 ) 下 默认 有 两 个 名 为 ib_logfile0 和 


ib_logfilel 的 文件 ， log buffer 中 的 日 志 默 认 情 况 下 就 是 刷新 到 这 两 个 磁盘 文件 中 。 如 果 我 们 对 默认 的 
redo 日 志文 件 不 满意 ， 可 以 通过 下 边 几 个 启动 参数 来 调节 : 


。 innodb log group home dir 





该 参数 指定 了 redo 日 志文 件 所 在 的 目录 ， 默 认 值 就 是 当前 的 数据 目录 。 


。 innodb log file size 


该 参数 指定 了 每 个 redo 日 志文 件 的 大 小 ， 在 MySQL 5. 7. 21 这 个 版 本 中 的 默认 值 为 48MB ， 


。 innodb log files in group 





该 参数 指定 redo 日 志文 件 的 个 数 ， 默 认 值 为 2， 最 大 值 为 100。 

















从 上 边 的 描述 中 可 以 看 到 ， 磁 盘 上 的 redo 日 志文 件 不 只 一 个 ， 而 是 以 一 个 日 志文 件 组 的 形式 出 现 的 。 这 些 文件 
以 ib logfile[ 数 字 ] ( 数字 可 以 是 0、 1 、2 …) 的 形式 进行 命名 。 在 将 redo 日 志 写 入 日 志文 件 组 时 ， 是 
从 ib logfile0 开始 写 ， 如 果 ib logfile0 写 满 了 ， 就 接着 ib_ logfilel 写 ， 同 理 ， ib logfilel 写 满 了 就 去 
写 ib_ logfile2 ， 依 此 类 推 。 如 果 写 到 最 后 一 个 文件 该 咱 办 ? 那 就 重新 转 到 ib_logfile0 继续 写 ， 所 以 整个 过 程 
如 下 图 所 示 : 




















redo 日 志文 件 组 示意 图 





leMlele lls leMlele lil leMlele illo 





总 共 的 redo 日 志文 件 大 小 其 实 就 是 : innodb log file size X innodb log files in group 。 









































小 贴 士 ， 如 果 采 用 循环 使 用 的 方式 向 redo 日 志文 件 组 里 写 数据 的 话 ， 那 岂 不 是 要 追尾 ， 也 就 是 后 写 入 的 
redo 日 志 履 盖 掉 前 边 写 的 redo 日 志 ? 当然 可 能 了 ! 所 以 设计 InnoDB 的 大 叔 提 出 了 checkpoint 的 概念 ， 稍 
后 我 们 重点 踪 叫 一 





























21.1.3 redo 日 志文 件 格式 


我 们 前 边 说 过 log buffer 本 质 上 是 一 片 连续 的 内 存 空 间 ， 被 划分 成 了 若干 个 512 字 节 大 小 的 block 。 将 log 
buffer 中 的 redo 日 志 刷 新 到 磁盘 的 本 质 就 是 把 block 的 镜像 写 入 日 志文 件 中 ， 所 以 redo 日 志文 件 其 实 也 是 由 若干 
个 512 字 节 大 小 的 block 组 成 。 


redo 日 志文 件 组 中 的 每 个 文件 大 小 都 一 样 ， 格 式 也 一 样 ， 都 是 由 两 部 分 组 成 : 


。 前 2048 个 字 节 ， 也 就 是 前 4 个 block 是 用 来 存储 一 些 管理 信息 的 。 
。 从 第 2048 字 节 往 后 是 用 来 存储 1og buffer 中 的 block 镜 像 的 。 


所 以 我 们 前 边 所 说 的 循环 使 用 redo 日 志文 件 ， 其 实 是 从 每 个 日 志文 件 的 第 2048 个 字 节 开始 算 ， 画 个 示意 图 就 是 
这 样 : 
redo 日 志文 件 组 示意 图 


前 2048 字 节 ， 也 就 是 4 个 、 
block， 是 用 来 存储 一 些 
管理 信息 的 






ib_ logfile1 : 


普通 block 的 格式 我 们 在 踪 归 1og buffer 的 时 候 都 说 过 了 ， 就 是 log block header 、 log block body 、 log 
block trialer 这 三 个 部 分 ， 就 不 重复 介绍 了 。 这 里 需要 介绍 一 下 每 个 redo 日 志文 件 前 2048 个 字 节 ， 也 就 是 前 4 
个 特殊 block 的 格式 都 是 干 嘛 的 ， 废 话 少 说 ， 先 看 图 : 


redo 日 志文 件 前 4 个 block 示 意图 


[ele millsWalstlels]l checkpoint1 checkpoint2 





从 图 中 可 以 看 出 来 ， 这 4 个 block 分 别 是 : 
。 log file header : 描述 该 redo 日 志文 件 的 一 些 整体 属性 ， 看 一 下 它 的 结构 : 


redo 日 志文 件 前 4 个 block 示 意图 


log fle header checkpoint1 > checkpoint2 


LOG_HEADER_FORMAT 
LOG_HEADER_PAD1 


LOG_HEADER_START_LSN 


LOG_HEADER_CREATOR 


没 用 





LOG_BLOCK_CHECKSUM 


各 个 属性 的 具体 释义 如 下 : 


| 属性 名 | 长 度 (单位 : 字 节 ) | 描述 | |:--:|:--:|:--| | LOG_HEADER_FORMAT | 4 | redo 日 志 的 版 本 ， 在 MySQL 

5. 7. 21 中 该 值 永远 为 1| | L0G_HEADER_PAD1 | 4 | 做 字 节 填充 用 的 ,没什么 实际 意义 ， 忽 略 ~| 

| LOG_HEADER_START_LSN | 8 | 标记 本 redo 日 志文 件 开始 的 LSN 值 ， 也 就 是 文件 偏 移 量 为 2048 字 节 初 对 应 的 
LSN 值 (关于 什么 是 LSN 我 们 稍 后 再 看 哈 ， 看 不 懂 的 先 忽 略 ) 。| | L0G_HEADER_CREATOR | 32 | 一 个 字符 串 ， 
标记 本 redo 日 志文 件 的 创建 者 是 谁 。 正 常 运行 时 该 值 为 MySQL 的 版 本 号 ， 比 如 : “MySQL 5. 7. 21”， 使 用 
mysqlbackup 命令 创建 的 redo 日 志文 件 的 该 值 为 “ibbackup”″ 和 创建 时 间 。| | LOG BLOCK _CHECKSUM | 4 | 本 
block 的 校 验 值 ， 所 有 block 都 有 ， 我 们 不 关心 | 


小 贴 士 : 

设计 InnoDB 的 大 叔 对 redo 日 志 的 block 格 式 做 了 很 多 次 修改 ， 如 果 你 阅读 的 其 他 书籍 中 发 现 上 述 
的 属性 和 你 阅读 书籍 中 的 属性 有 些 出 入 ， 不 要 慌 ， 正 常 现象 ， 忘 记 以 前 的 版 本 吧 。 另 外 ，LSN 值 我 
们 后 边 才 会 介绍 ， 现 在 千 万 别 纠 结 LSN 是 个 啥 。 





checkpoint1l : 记录 关于 checkpoint 的 一 些 属性 ， 看 一 下 它 的 结构 : 


redo 日 志文 件 前 4 个 block 示 意图 


log file header checkpoint1 > checkpoint2 





LOG_CHECKPOINT_NO 
LOG_CHECKPOINT_LSN 
LOG_CHECKPOINT_OFFSET 


LOG_CHECKPOINT_LOG_BUF SIZE 


没 用 


LOG_BLOCK_CHECKSUM 





s12B 


各 个 属性 的 具体 释义 如 下 : 


| 属性 名 | 长 度 (单位 : 字 节 ) | 描述 | |:--:|:--:|:--| | L0G_CHECKPOINT_NO | 8 | 服务 器 做 checkpoint 的 编号 ， 每 做 
一 次 checkpoint ， 该 值 就 加 1。| | L0G_CHECKPOINT_LSN | 8 | 服务 器 做 checkpoint 结束 时 对 应 的 LSN 值 ， 系 
统 奔 省 恢复 时 将 从 该 值 开始 。| | L0G_CHECKPOINT_OFFSET | 8 | 上 个 属性 中 的 LSN 值 在 redo 日 志文 件 组 中 的 
偏 移 量 | | LOG_CHECKPOINT_LOG_BUF_SIZE | 8 | 服务 器 在 做 checkpoint 操作 时 对 应 的 log buffer 的 大 小 | 

| LOG BLOCK_CHECKSUM | 4 | 本 block 的 校 验 值 ， 所 有 block 都 有 ， 我 们 不 关心 | 


小 贴 士 : 
现在 看 不 懂 上 边 这 些 关 于 checkpoint 和 LSN 的 属性 的 释义 是 很 正常 的 ， 我 就 是 想 让 大 家 对 上 边 这 
些 属 性 混 个 脸 熟 ， 后 边 我 们 后 详细 踪 叫 的 。 


。 第 三 个 block 未 使 用 ， 忽 略 ~ 
。 checkpoint2 : 结构 和 checkpointl 一 样 。 





21.2 Log Sedueue Number 


自 系 统 开始 运行 ， 就 不 断 的 在 修改 页 面 ， 也 就 意味 着 会 不 断 的 生成 redo 日 志 。 redo 日 志 的 量 在 不 断 的 递增 ， 就 
像 人 的 年 龄 一 样 ， 自 打出 生起 就 不 断 递 增 ， 永 远 不 可 能 缩减 了 。 设 计 InnoDB 的 大 叔 为 记录 已 经 写 入 的 redo 日 志 
量 ， 设 计 了 一 个 称 之 为 Log Sequeue Number 的 全 局 变量 ， 翻 译 过 来 就 是 : ”日志 序列 号 ， 简 称 1sn 。 不 过 不 像 
人 一 出 生 的 年 龄 是 0 岁 ， 设 计 InnoDB 的 大 叔 规定 初始 的 1sn 值 为 8704 (也 就 是 一 条 redo 日 志 也 没 写 入 时 ， 
lsn 的 值 为 8704 ) 。 

我 们 知道 在 向 log buffer 中 写 入 redo 日 志 时 不 是 一 条 一 条 写 入 的 ， 而 是 以 一 个 mtr 生成 的 一 组 redo 日 志 为 单 


位 进行 写 入 的 。 而 且 实 际 上 是 把 日 志 内 容 写 在 了 log block body 处 。 但 是 在 统计 1sn 的 增长 量 时 ， 是 按照 实际 
写 入 的 日 志 量 加 上 占用 的 log block header 和 log block trailer 来 计算 的 。 我 们 来 看 一 个 例子 : 


。 系统 第 一 次 启动 后 初始 化 log puffer 时 ， buf_free (就 是 标记 下 一 条 redo 日 志 应 该 写 入 到 log buffer 
的 位 置 的 变量 ) 就 会 指向 第 一 个 block 的 偏 移 量 为 12 字 节 ( log block header 的 大 小 ) 的 地 方 ， 那 么 1sn 
值 也 会 跟着 增加 12 : 


log buffer 结 构 示 意图 


buf_free 位 置 





“此 时 1sn 的 值 为 : 
~ 8704 + 12 = 8716— 


。 如 果 某 个 mtr 产生 的 一 组 redo 日 志 占用 的 存储 空间 比较 小 ， 也 就 是 待 插入 的 block 剩 余 空 闲 空间 能 容纳 这 
个 mtr 提交 的 日 志 时 ， lsn 增长 的 量 就 是 该 mtr 生成 的 redo 日 志 占 用 的 字 节 数 ， 就 像 这 样 : 


log buffer 结 构 示 意图 







buf free 位置 





By 4 
一 此 时 1sn 的 值 为 : 
~ 8716 + 200 = 8916 


我 们 假设 上 图 中 mtr 1 产生 的 redo 日 志 量 为 200 字 节 ， 那 么 1sn 就 要 在 8716 的 基础 上 增加 200 ， 变 为 
8916 。 

。 如 果 某 个 mtr 产生 的 一 组 redo 日 志 占 用 的 存储 空间 比较 大 ， 也 就 是 待 插入 的 block 剩 余 空 闲 空间 不 足以 容纳 
这 个 mtr 提交 的 日 志 时 ， lsn 增长 的 量 就 是 该 mtr 生成 的 redo 日 志 占 用 的 字 节 数 加 上 额外 占用 的 log 
block header 和 log block trailer 的 字 节 数 ， 就 像 这 样 : 


比 时 1sn 的 值 为 : 
8916 + 1000 + 12x2 + 4 x 2= 9948 


log buffer 结 构 示 意图 


log block header log block header log block header log block header 


log block header 


加 四 国 log block body 


log block trailer log block trader lo block trailer log block trailer 





log block trailer 


buf_free 位 置 


我 们 假设 上 图 中 mtr_2 产生 的 redo 日 志 量 为 1000 字 节 ， 为 了 将 mtr_2 产生 的 redo 日 志 写 入 log 
buffer ， 我 们 不 得 不 额外 多 分 配 两 个 block， 所 以 1sn 的 值 需要 在 8916 的 基础 上 增加 1000 + 12X2 + 4 
XxX 2=1032。 


小 贴 士 : 
为 什么 初始 的 1sn 值 为 8704 呢 ?我 也 不 太 清楚 ， 人 家 就 这 么 规定 的 。 其 实 你 也 可 以 规定 你 一 生 下 来 算 1 
岁 ， 只 要 保证 随 着 时 间 的 流逝 ， 你 的 年 龄 不 断 增长 就 好 了 。 





从 上 边 的 描述 中 可 以 看 出 来 ， 每 一 组 由 mtr 生 成 的 redo 日 志 都 有 一 个 唯一 的 LSN 值 与 其 对 应 ，LSN 值 越 小 ， 说 明 
redo 日 志 产 生 的 越 早 。 


21.2.1 flushed to_disk_Isn 


redo 日 志 是 首先 写 到 log buffer 中 ， 之 后 才 会 被 刷新 到 磁盘 上 的 redo 日 志文 件 。 所 以 设计 InnoDB 的 大 叔 提 
出 了 一 个 称 之 为 buf_next_to_write 的 全 局 变量 ,标记 当前 log buffer 中 已 经 有 哪些 日 志 被 刷新 到 磁盘 中 了 。 
画 个 图 表示 就 是 这 样 : 


a Es 


( 当前 redo 日 a 
> 


buf_ next to write buf free 











log buffer: 空闲 的 log buffer 
> 4 N 
. D> 4 要 
< 了 ~、 ~ i 
一 这 一 自 表 示 已 经 被 刷新 到 、 这 一 段 表示 写 入 到 log 。、、 
( 磁 瘟 的 日 志 | buffer 但 没有 刷新 到 磁盘 的 
~ D> 、 redo 日 志 


一 一 ~ _ 一 一 


我 们 前 边 说 1sn 是 表示 当前 系统 中 写 入 的 redo 日 志 量 ， 这 包括 了 写 到 log buffer 而 没有 刷新 到 磁盘 的 日 志 ， 
相应 的 ， 设 计 InnoDB 的 大 叔 提出 了 一 个 表示 刷新 到 磁盘 中 的 redo 日 志 量 的 全 局 变量 ， 称 之 为 
flushed_to_disk_lsn 。 系 统 第 一 次 启动 时 ， 该 变量 的 值 和 初始 的 1sn 值 是 相同 的 ， 都 是 8704 。 随 着 系统 的 运 
行 ， redo 日 志 被 不 断 写 入 1og buffer ， 但 是 并 不 会 立即 刷新 到 磁盘 ， 1sn 的 值 就 和 flushed to disk lsn 的 
值 拉 开 了 差距 。 我 们 演示 一 下 : 


。 系统 第 一 次 启动 后 ， 向 log buffer 中 写 入 了 mtr 1 、mtr 2 、 mtr 3 这 三 个 mtr 产生 的 redo 日 志 , 假设 
这 三 个 mtr 开始 和 结束 时 对 应 的 lsn 值 分 别 是 : 

mn mtr 1 : 8716 ~ 8916 

" mtr 2 : 8916 ~ 9948 

mn mtr 3 : 9948 ~ 10000 


此 时 的 1sn 已 经 增长 到 了 10000， 但 是 由 于 没有 刷新 操作 ， 所 以 此 时 flushed_to_disk_lsn 的 值 仍 为 
8704 ， 如 图 : 


Se buf_next to write buf free 
由 于 没有 刷新 操作 ， 所 以 此 | 


”时 flushed_to disk_lsn 仍 ， 此 时 1sn 的 值 长 到 了 10000  ， 
是 8704 > 


log buffer: 





log file: 全 部 空闲 


人 
这 是 前 2048 字 节 


。 随后 进行 将 log buffer 中 的 block 刷 新 到 redo 日 志文 件 的 操作 ， 假 设 将 mtr_ 1 和 mtr_2 的 日 志 刷 新 到 磁 
盘 ， 那么 flushed to disk lsn 就 应 该 增长 mtr 1 和 mtr 2 写 入 的 日 志 量 ， 所 以 flushed to disk lsn 的 
值 增 长 到 了 9948 ， 如 图 : 


将 mtr_1 和 mtr_2 的 日 志 刷 新 到 磁 、 buf_next to _ write buf free 
盘 后 ， flushed to_disk_lsn 的 ， -二 和 
住 长 到 了 9948 < ( ”此 时 1sn 的 值 长 到 了 10000 


log buffer: 





log file: 





OT— 
这 是 前 2048 字 节 


综 上 所 述 ， 当 有 新 的 redo 日 志 写 入 到 log buffer 时 ， 首 先 1sn 的 值 会 增长 , 但 flushed_ to_disk_lsn 不 变 ， 
随后 随 着 不 断 有 log buffer 中 的 日 志 被 刷新 到 磁盘 上 ， flushed to disk lsn 的 值 也 跟着 增长 。 如 果 两 者 的 值 
相同 时 ， 说 明 log buffer 中 的 所 有 redo 日 志 都 已 经 刷新 到 磁盘 中 了 。 


小 贴 士 : 

应 用 程序 向 磁盘 写 入 文件 时 其 实 是 先 写 到 操作 系统 的 缓冲 区 中 去 ， 如 果 某 个 写 入 操作 要 等 到 操作 系统 确 
认 已 经 写 到 磁盘 时 才 返 回 ， 那 需要 调用 一 下 操作 系统 提供 的 fsync 函 数 。 其 实 只 有 当 系 统 执行 了 fsync 函 
数 后 ，flushed_ to_disk_lsn 的 值 才 会 跟着 增长 ， 当 仅仅 把 1og buffer 中 的 日 志 写 入 到 操作 系统 缓冲 区 
却 没 有 显 式 的 刷新 到 磁盘 时 ， 另 外 的 一 个 称 之 为 write_lsn 的 值 跟着 增长 。 不 过 为 了 大 家 理解 上 的 方 
便 ， 我 们 在 讲述 时 把 flushed to disk lsn 和 write lsn 的 概念 混淆 了 起 来 。 












































21.2.2 Isn 值 和 redo 日 志文 件 偏 移 量 的 对 应 关系 


因为 1sn 的 值 是 代表 系统 写 入 的 redo 日 志 量 的 一 个 总 和 ， 一 个 mtr 中 产生 多 少 日 志 ， 1sn 的 值 就 增加 多 少 ( 当 
然 有 时 候 要 加 上 log block header 和 log block trailer 的 大 小 ) ， 这 样 mtr 产生 的 日 志 写 到 磁盘 中 时 ， 很 容 
易 计 算 某 一 个 1sn 值 在 redo 日 志文 件 组 中 的 偏 移 量 ， 如 图 : 


lsn 值 : 8704 8916 9948 


log file: 





偏 移 量 : 0 2048 2260 3292 


初始 时 的 LSN 值 是 8704 ， 对 应 文件 偏 移 量 2048 ， 之 后 每 个 mtr 向 磁盘 中 写 入 多 少 字 节 日 志 ， 1sn 的 值 就 增长 
多 少 。 


21.2.3 flush 链 表 中 的 LSN 


我 们 知道 一 个 mtr 代表 一 次 对 底层 页 面 的 原子 访问 ， 在 访问 过 程 中 可 能 会 产生 一 组 不 可 分 割 的 redo 日 志 ， 在 
mtr 结束 时 ， 会 把 这 一 组 redo 日 志 写 入 到 log buffer 中 。 除 此 之 外 ， 在 mtr 结束 时 还 有 一 件 非常 重要 的 事情 
要 做 ， 就 是 把 在 mtr 执 行 过 程 中 可 能 修改 过 的 页 面 加 入 到 Buffer Pool 的 flush 链 表 。 为 了 防止 大 家 早已 忘记 flush 链 
表 是 个 喻 ,我 们 再 看 一 下 图 |: 















控制 块 中 包含 着 flush 链 表 
的 pre 和 next 指 针 


这 个 是 flush 链 表 的 基 节 点 ， 
包含 链表 的 头 节点 、 尾 节点 指针 
以 及 链表 中 节点 数量 等 信息 






当 第 一 次 修改 某 个 缓存 在 Buffer Pool 中 的 页 面 了 时， 就 会 把 这 个 页 面 对 应 的 控制 块 插 入 到 flush 链 表 的 头 部 , 之 
后 再 修改 该 页 面 时 由 于 它 已 经 在 flush 链表 中 了 ， 就 不 再 次 插入 了 。 也 就 是 说 flush 链 表 中 的 脏 页 是 按照 页 面 的 第 
一 次 修改 时 间 从 大 到 小 进行 排序 的 。 在 这 个 过 程 中 会 在 缓存 页 对 应 的 控制 块 中 记录 两 个 关于 页 面 何 时 修改 的 属 
性 : 


。 oldest_modification : 如 果 某 个 页 面 被 加 载 到 Buffer Pool 后 进行 第 一 次 修改 ， 那 么 就 将 修改 该 页 面 的 
mtr 开始 时 对 应 的 1sn 值 写 入 这 个 属性 。 

。 newest modification : 每 修改 一 次 页 面 ， 都 会 将 修改 该 页 面 的 mtr 结束 时 对 应 的 1sn 值 写 入 这 个 属性 。 
也 就 是 说 该 属性 表示 页 面 最 近 一 次 修改 后 对 应 的 系统 1sn 值 。 


我 们 接着 上 边 踪 明 flushed to_disk_lsn 的 例子 看 一 下 : 


。 假设 mtr_1 执行 过 程 中 修改 了 页 a ， 那 么 在 mtr_ 1 执行 结束 时 ， 就 会 将 页 a 对 应 的 控制 块 加 入 到 flush 链 
表 的 头 部 。 并 且 将 mtr_1 开始 时 对 应 的 1sn ， 也 就 是 8716 写 入 页 a 对 应 的 控制 块 的 
oldest_modification 属性 中 ,把 mtr_1 结束 时 对 应 的 1sn ， 也 就 是 8916 写 入 页 a 对 应 的 控制 块 的 
newest modification 属性 中 。 画 个 图 表示 一 下 (为 了 让 图 片 美观 一 些 ， 我 们 把 oldest_modification 缩写 
成 了 om,， 把 newest modification 缩写 成 了 nm) : 


flush 链 表 基 节点 





页 a 的 控制 块 


。 接着 假设 mtr_2 执行 过 程 中 又 修改 了 页 b 和 页 c 两 个 页 面 ， 那 么 在 mtr_2 执行 结束 时 ， 就 会 将 页 b 和 页 c 
对 应 的 控制 块 都 加 入 到 flush 链 表 的 头 部 。 并 且 将 mtr 2 开始 时 对 应 的 1sn ， 也 就 是 8916 写 入 页 b 和 页 c 
对 应 的 控制 块 的 oldest_modification 属性 中 ， 把 mtr_2 结束 时 对 应 的 1sn ， 也 就 是 9948 写 入 页 b 和 页 c 
对 应 的 控制 块 的 newest_modification 属性 中 。 画 个 图 表示 一 下 : 


flush 链 表 基 节点 


页 b 的 控制 块 页 c 的 控制 块 页 a 的 控制 块 





从 图 中 可 以 看 出 来 ， 每 次 新 插入 到 flush 链 表 中 的 节点 都 是 被 放 在 了 头 部 ， 也 就 是 说 flush 链 表 中 前 边 的 脏 
页 修改 的 时 间 比 较 晚 ， 后 边 的 脏 页 修改 时 间 比 较 早 。 

。 接着 假设 mtr_3 执行 过 程 中 修改 了 页 b 和 页 d ， 不 过 页 b 之 前 已 经 被 修改 过 了 ， 所 以 它 对 应 的 控制 块 已 经 
被 插入 到 了 flush 链表 ， 所 以 在 mtr_3 执行 结束 时 ， 只 需要 将 页 d 对 应 的 控制 块 都 加 入 到 flush 链 表 的 头 
部 即 可 。 所 以 需要 将 mtr 3 开始 时 对 应 的 1sn ， 也 就 是 9948 写 入 页 d 对 应 的 控制 块 的 

oldest_modification 属性 中 ,把 mtr_3 结束 时 对 应 的 lsn ， 也 就 是 10000 写 入 页 d 对 应 的 控制 块 的 
newest modification 属性 中 。 另 外 ， 由 于 页 b 在 mtr 3 执行 过 程 中 又 发 生 了 一 次 修改 ， 所 以 需要 更 新 页 
b 对 应 的 控制 块 中 newest_modification 的 值 为 10000。 画 个 图 表示 一 下 : 


flush 链 表 基 节点 


页 d 的 控制 块 页 b 的 控制 块 页 c 的 控制 块 页 a 的 控制 块 





页 b 比 较 特 殊 ， 被 mtr_2 和 mtr_3 
都 更 新 过 ， 特 别 注意 它 的 n_m 属 
性 也 被 更 新 为 10000 了 


总 结 一 下 上 边 说 的 ， 就 是 : flush 链 表 中 的 脏 页 按照 修改 发 生 的 时 间 顺 序 进行 排序 ， 也 就 是 按照 
oldest_modification 代 表 的 LSN 值 进行 排序 ， 被 多 次 更 新 的 页 面 不 会 重复 插入 到 flush 链 表 中 ， 但 是 会 更 新 
newest_modification 属 性 的 值 。 


21.3 checkpoint 


有 一 个 很 不 幸 的 事实 就 是 我 们 的 redo 日 志文 件 组 容量 是 有 限 的 ， 我 们 不 得 不 选择 循环 使 用 redo 日 志文 件 组 中 的 
文件 ， 但 是 这 会 造成 最 后 写 的 redo 日 志 与 最 开始 写 的 redo 日 志 追尾 ， 这 时 应 该 想到 : redo 日 志 只 是 为 了 系统 
奔 溃 后 恢复 脏 页 用 的 ， 如 果 对 应 的 脏 页 已 经 刷新 到 了 磁盘 ， 也 就 是 说 即使 现在 系统 奔 溃 ， 那 么 在 重启 后 也 用 不 着 
使 用 redo 日 志 恢 复 该 页 面 了 ， 所 以 该 redo 日 志 也 就 没有 存在 的 必要 了 ， 那 么 它 占用 的 磁盘 空间 就 可 以 被 后 续 的 
redo 日 志 所 重用 。 也 就 是 说 : 判断 某 些 redo 日 志 占 用 的 磁盘 空间 是 否 可 以 覆盖 的 依据 就 是 它 对 应 的 脏 页 是 否 已 经 
刷新 到 磁盘 里 。 我 们 看 一 下 前 边 一 直 啼 切 的 那个 例子 : 


nm 








得 mtr_1 和 mtr_2 的 日 志 刷 新 到 buf next to write buf free i 

查 后 ， flushed to_disk_lsn 的 站 

值 长 到 了 9948 此 时 1sn 的 值 长 到 了 10000 
EN 


log buffer: 





log file: 





这 是 前 2048 字 节 


如 图 ， 昌 然 mtr_1 和 mtr 2 生成 的 redo 日 志 都 已 经 被 写 到 了 磁盘 上 ， 但 是 它们 修改 的 脏 页 仍然 留 在 Buffer 
Pool 中 ， 所 以 它们 生成 的 redo 日 志 在 磁 盘 上 的 空间 是 不 可 以 被 覆盖 的 。 之 后 随 着 系统 的 运行 ， 如 果 页 a 被 刷新 
到 了 磁盘 ， 那 么 它 对 应 的 控制 块 就 会 从 flush 链 表 中 移 除 ， 就 像 这 样子 : 






flush 链 表 基 节点 





页 b 的 控制 块 页 c 的 控制 块 


一 车 mtr_ 14omtr 2 的 日 志 刷 新 到 硬 buf_next to_write buf free 
查 后 ， flushed to disk_lsn 的 | 


- 侍 长 到 了 9948 有 (此 时 1sn 的 值 长 到 了 10000 


log buffer: 





log file: 





这 是 将 2048 字 节 


这 样 mtr 1 生成 的 redo 日 志 就 没有 用 了 ， 它 们 占用 的 磁盘 空间 就 可 以 被 覆盖 掉 了 。 InnoDB 的 大 叔 提 出 了 
一 个 全 局 变量 checkpoint_lsn 来 代表 当前 系统 中 可 以 被 覆盖 的 redo 日 志 总 量 是 多 少 ， 这 个 变量 初始 值 也 是 
8704 。 


比方 说 现在 页 a 被 刷新 到 了 磁盘 ， mtr_1 生成 的 redo 日 志 就 可 以 被 覆盖 了 ， 所 以 我 们 可 以 进行 一 个 增加 
checkpoint_lsn 的 操作 ， 我 们 把 这 个 过 程 称 之 为 做 一 次 checkpoint 。 做 一 次 checkpoint 其 实 可 以 分 为 两 个 步 
又 : 


。 步骤 一 : 计算 一 下 当前 系统 中 可 以 被 覆盖 的 redo 日 志 对 应 的 1sn 值 最 大 是 多 少 。 


redo 日 志 可 以 被 覆盖 ， 意 味 着 它 对 应 的 脏 页 被 刷 到 了 磁盘 ， 只 要 我 们 计算 出 当前 系统 中 被 最 早 修 改 的 脏 页 
对 应 的 oldest_modification 值 ， 那 几 是 在 系统 lsn 值 小 于 该 节点 的 oldest_modification 值 时 产生 的 redo 日 志 
都 是 可 以 被 覆盖 掉 的 ， 我 们 就 把 该 脏 页 的 ol dest_modification 赋值 给 checkpoint_lsn 。 


比方 说 当前 系统 中 页 a 已 经 被 刷新 到 磁盘 ， 那 么 flush 链 表 的 尾 节 点 就 是 页 c ， 该 节点 就 是 当前 系统 中 最 
早 修 改 的 脏 页 了 ， 它 的 oldest_modification 值 为 8916 ， 我 们 就 把 8916 赋 值 给 checkpoint_lsn (也 就 是 说 
在 redo 日 志 对 应 的 lsn 值 小 于 8916 时 就 可 以 被 覆盖 掉 ) 。 
。 步骤 二 : 将 checkpoint_1sn 和 对 应 的 redo 日 志文 件 组 偏 移 量 以 及 此 次 checkpint 的 编号 写 到 日 志文 件 的 
管理 信息 (就 是 checkpointl 或 者 checkpoint2 ) 中 。 


设计 InnoDB 的 大 叔 维 护 了 一 个 目前 系统 做 了 多 少 次 checkpoint 的 变量 checkpoint_no， 每 做 一 次 
checkpoint ， 该 变量 的 值 就 加 1。 我 们 前 边 说 过 计算 一 个 1sn 值 对 应 的 redo 日 志文 件 组 偏 移 量 是 很 容易 
的 ， 所 以 可 以 计算 得 到 该 checkpoint_lsn 在 redo 日 志文 件 组 中 对 应 的 偏 移 量 checkpoint_offset ， 然 后 

把 这 三 个 值 都 写 到 redo 日 志文 件 组 的 管理 信息 中 。 


我 们 说 过 ， 每 一 个 redo 日 志文 件 都 有 2048 个 字 节 的 管理 信息 ， 但 是 上 述 关 于 checkpoint 的 信息 只 会 被 写 到 
日 志文 件 组 的 第 一 个 日 志文 件 的 管理 信息 中 。 不 过 我 们 是 存储 到 checkpoint1l 中 还 是 checkpoint2 中 呢 ? 设 
计 InnoDB 的 大 叔 规定 ， 当 checkpoint_no 的 值 是 偶数 时 ， 就 写 到 checkpointl 中 ， 是 奇数 时 ， 就 写 到 
checkpoint2 中 。 


记录 完 checkpoint 的 信息 之 后 ， redo 日 志文 件 组 中 各 个 1sn 值 的 关系 就 像 这 样 : 


Isn=10000 


flushed to disk lsn=9948 


checkpoint lsn=8916 


log file: 





这 是 前 2048 字 节 


flushed_to_disk_lsn 和 |sn 
之 间 的 redo 日 志 还 留 在 log buffer 
中 ， 没 有 刷新 到 磁盘 


21.3.1 批量 从 flush 链 表 中 刷 出 脏 页 


我 们 在 介绍 Buffer Pool 的 时 候 说 过 ,一 般 情况 下 都 是 后 台 的 线程 在 对 LRU 链 表 和 flush 链 表 进行 刷 脏 操作 ， 
这 主要 因为 刷 脏 操作 比较 慢 ， 不 想 影 响 用 户 线程 处 理 请 求 。 但 是 如 果 当 前 系统 修改 页 面 的 操作 十 分 频繁 ， 这 样 就 
导致 写 日 志 操作 十 分 频繁 ， 系 统 1sn 值 增长 过 快 。 如 果 后 台 的 刷 脏 操作 不 能 将 脏 页 刷 出 ， 那 么 系统 无 法 及 时 做 
checkpoint ， 可 能 就 需要 用 户 线程 同步 的 从 flush 链 表 中 把 那些 最 早 修改 的 脏 页 ( oldest_modification 最 小 
的 脏 页 ) 刷新 到 磁盘 ， 这 样 这 些 脏 页 对 应 的 redo 日 志 就 没 用 了 ， 然 后 就 可 以 去 做 checkpoint 了 。 





21.3.2 查看 系统 中 的 各 种 LSN 值 
我 们 可 以 使 用 SHOW ENGINE INNODB STATUS 命令 查看 当前 InnoDB 存储 引擎 中 的 各 种 LSN 值 的 情况 ， 比 如 : 


mysql> SHOW ENGINE INNODB STATUSANG 





(.. .省 略 前 边 的 许多 状态 ) 

LOG 

Log Sequence number 124476971 

Log flushed up to 124099769 

Pages flushed up to 124052503 

Last checkpoint at 124052494 

0 pending log flushes，0 pending chkp writes 
24 log i/o s done, 2.00 log i/o’ s/second 











(... 省略 后 边 的 许多 状态 ) 
其 中 : 


。 Log sequence number : 代表 系统 中 的 1sn 值 ， 也 就 是 当前 系统 已 经 写 入 的 redo 日 志 量 ,包括 写 入 log 
buffer 中 的 日 志 。 

。 Log flushed up to : 代表 flushed to _ disk lsn 的 值 ， 也 就 是 当前 系统 已 经 写 入 磁盘 的 redo 日 志 量 。 

。 Pages flushed up to : 代表 flush 链 表 中 被 最 早 修改 的 那个 页 面 对 应 的 oldest modification 属性 值 。 

。 Last checkpoint at : 当前 系统 的 checkpoint_lsn 值 。 

















21.4 innodb flush_ log at trx_commit 的 用 法 


我 们 前 边 说 为 了 保证 事务 的 持久 性 ， 用 户 线程 在 事务 提交 时 需要 将 该 事务 执行 过 程 中 产生 的 所 有 redo 日 志 都 刷 
新 到 磁盘 上 。 这 一 条 要 求 太 儿 了， 会 很 明显 的 降低 数据 库 性 能 。 如 果 有 的 同学 对 事务 的 持久 性 要 求 不 是 那么 强 
烈 的 话 ， 可 以 选择 修改 一 个 称 为 innodb flush log at trx_commit 的 系统 变量 的 值 ， 该 变量 有 3 个 可 选 的 值 : 








。 0 : 当 该 系统 变量 值 为 0 时 ， 表 示 在 事务 提交 时 不 立即 向 磁盘 中 同步 redo 日 志 ， 这 个 任务 是 交 给 后 台 线 程 
做 的 。 


这 样 很 明显 会 加 快 请 求 处 理 速 度 ， 但 是 如 果 事 务 提交 后 服务 器 挂 了 ， 后 台 线 程 没有 及 时 将 redo 日 志 刷 新 到 
磁盘 ， 那 么 该 事务 对 页 面 的 修改 会 丢失 。 

1 ， 当 沪 系 统 变量 信 为 1 时 ， 表 示 在 事务 提交 时 需要 将 redo 日 志 同 步 到 磁盘 ， 可 以 保证 事务 的 持久 性 。 1 
也 是 innodb flush log at trx commit 的 默认 值 。 

2 : 当 该 系统 变量 值 为 2 时 ， 表 示 在 事务 提交 时 需要 将 redo 日 志 写 到 操作 系统 的 缓冲 区 中 ， 但 并 不 需要 保 
证 将 日 志 真 正 的 刷新 到 磁盘 。 








这 种 情况 下 如 果 数 据 库 挂 了 ， 操 作 系统 没 挂 的 话 ， 事 务 的 持久 性 还 是 可 以 保证 的 ， 但 是 操作 系统 也 挂 了 的 
话 ， 那 就 不 能 保证 持久 性 了 。 





21.5 月 溃 恢 复 


在 服务 器 不 挂 的 情况 下 ， redo 日 志 简直 就 是 个 大 累 浆 ， 不 仅 没 用 ， 反 而 让 性 能 变 得 更 差 。 但 是 万 一 ， 我 说 万 一 
啊 ， 万 一 数据 库 挂 了 ， 那 redo 日 志 可 是 个 宝 了 ， 我 们 就 可 以 在 重启 时 根据 redo 日 志 中 的 记录 就 可 以 将 页 面 恢复 
到 系统 奔 溃 前 的 状态 。 我 们 接 下 来 大 致 看 一 下 恢复 过 程 是 个 啥 样 。 


21.5.1 确定 恢复 的 起 点 


我 们 前 边 说 过 ， checkpoint_1sn 之 前 的 redo 日 志 都 可 以 被 覆盖 ， 也 就 是 说 这 些 redo 日 志 对 应 的 脏 页 都 已 经 被 
刷新 到 磁盘 中 了 ， 既 然 它们 已 经 被 刷 盘 ， 我 们 就 没 必要 恢复 它们 了 。 对 于 checkpoint lsn 之 后 的 redo 日 志 , 它 
们 对 应 的 脏 页 可 能 没 被 刷 盘 ， 也 可 能 被 刷 盘 了 ， 我 们 不 能 确定 ， 所 以 需要 从 checkpoint_1sn 开始 读 取 redo 日 志 
来 恢复 页 面 。 


当然 ， redo 日 志文 件 组 的 第 一 个 文件 的 管理 信息 中 有 两 个 block 都 存储 了 checkpoint_lsn 的 信息 ， 我 们 当然 是 
要 选取 最 近 发 生 的 那 次 checkpoint 的 信息 。 衡 量 checkpoint 发 生 时 间 早 晚 的 信息 就 是 所 谓 的 checkpoint no ， 
我 们 只 要 把 checkpointl 和 checkpoint2 这 两 个 block 中 的 checkpoint no 值 读 出 来 比 一 下 大 小 ， 哪 个 的 
checkpoint_no 值 更 大 ， 说 明 哪个 block 存 储 的 就 是 最 近 的 一 次 checkpoint 信息 。 这 样 我 们 就 能 拿 到 最 近 发 生 
的 checkpoint 对 应 的 checkpoint_lsn 值 以 及 它 在 redo 日 志文 件 组 中 的 偏 移 量 checkpoint offset 。 


21.5.2 确定 恢复 的 终点 
redo 日 志 恢 复 的 起 点 确定 了 ， 那 终点 是 哪个 呢 ? 这 个 还 得 从 block 的 结构 说 起 。 我 们 说 在 写 redo 日 志 的 时 候 者 
是 顺序 写 的 ， 写 满 了 一 个 block 之 后 会 再 往 下 一 个 block 中 写 : 


log biock body 





项 填 满 的 block 的 Ss 
、 L0G_BLOCK_HDR_DATA_LEN 属 性 都 为 512 一 


普通 block 的 log block header 部 分 有 一 个 称 之 为 L0G BLOCK HDR DATA_LEN 的 属性 ,该 属性 值 记录 了 当前 block 
里 使 用 了 多 少 字 节 的 空间 。 对 于 被 填 满 的 block 来 说 ， 该 值 永 远 为 512 。 如 果 该 属性 的 值 不 为 512 ， 那 么 就 是 它 
了 ,， 它 就 是 此 次 奔 演 恢 复 中 需要 扫描 的 最 后 一 个 block。 





21.5.3 怎么 恢复 


确定 了 需要 扫描 哪些 redo 日 志 进 行 奔 溃 恢复 之 后 ， 接 下 来 就 是 怎么 进行 恢复 了 。 假 设 现 在 的 redo 日 志文 件 中 有 
5 条 redo 日 志 ， 如 图 : 


redo 0 redo 1 redo 2 redo 3 redo 4 


space ID :0 space ID :0 space ID :0 space ID :0 space ID :0 


page number: 10 page number:8 pagenumber:7 pagenumber:8 page number:5 





checkpoint_|sn 


由 于 redo 0 在 checkpoint_lsn 后 边 ， 恢 复 时 可 以 不 管 它 。 我 们 现在 可 以 按照 redo 日 志 的 顺序 依次 扫描 
checkpoint_ lsn 之 后 的 各 条 redo 日 志 ， 按 照 日 志 中 记载 的 内 容 将 对 应 的 页 面 恢 复出 来 。 这 样 没什么 问题 ， 不 过 
设计 InnoDB 的 大 叔 还 是 想 了 一 些 办 法 加 快 这 个 恢复 的 过 程 : 


。 使 用 哈 希 表 


根据 redo 日 志 的 space ID 和 page number 属性 计算 出 散 列 值 ， 把 space ID 和 page number 相同 的 redo 
日 志 放 到 哈 希 表 的 同一 个 槽 里 ， 如 果 有 多 个 space ID 和 page number 都 相同 的 redo 日 志 ， 那 么 它们 之 间 
使 用 链表 连接 起 来 ， 按 照 生成 的 先后 顺序 链接 起 来 的 ， 如 图 所 示 : 


哈 项 表示 意图 
同一 个 页 面 的 redo 日 志 被 散 列 到 
哈 希 表 的 同一 个 模 里 ， 它 们 是 按照 
根据 space1D 和 page number 生成 的 先后 顺序 链接 起 来 的 
计算 哈 希 表 的 散 列 值 











之 后 就 可 以 遍历 哈 希 表 ， 因 为 对 同一 个 页 面 进行 修改 的 redo 日 志 都 放 在 了 一 个 槽 里 ， 所 以 可 以 一 次 性 将 一 
个 页 面 修复 好 (避免 了 很 多 读 取 页 面 的 随机 IO) ， 这 样 可 以 加 快 恢复 速度 。 另 外 需要 注意 一 点 的 是 ， 同 一 个 
页 面 的 redo 日 志 是 按照 生成 时 间 顺 序 进行 排序 的 ， 所 以 恢复 的 时 候 也 是 按照 这 个 顺序 进行 恢复 ， 如 果 不 按 
照 生成 时 间 顺 序 进行 排序 的 话 ， 那 么 可 能 出 现 错误 。 比 如 原先 的 修改 操作 是 先 插 入 一 条 记录 ， 再 删除 该 条 记 
录 ， 如 果 恢 复 时 不 按照 这 个 顺序 来 ， 就 可 能 变 成 先 删除 一 条 记录 ， 青 插入 一 条 记录 ， 这 显然 是 错误 的 。 

。 跳 过 已 经 刷新 到 磁盘 的 页 面 


我 们 前 边 说 过 ， checkpoint_lsn 之 前 的 redo 日 志 对 应 的 脏 页 确定 都 已 经 刷 到 磁盘 了 ， 但 是 
checkpoint_lsn 之 后 的 redo 日 志 我 们 不 能 确定 是 否 已 经 刷 到 磁盘 ， 主 要 是 因为 在 最 近 做 的 一 次 
checkpoint 后 ， 可 能 后 台 线 程 又 不 断 的 从 LRU 链 表 和 flush 链 表 中 将 一 些 脏 页 刷 出 Buffer Pool 。 这 些 

在 checkpoint_lsn 之 后 的 redo 日 志 ， 如 果 它 们 对 应 的 脏 页 在 奔 溃 发 生 时 已 经 刷新 到 磁盘 ， 那 在 恢复 时 也 就 

没有 必要 根据 redo 日 志 的 内 容 修改 该 页 面 了 。 








那 在 恢复 时 怎么 知道 某 个 redo 日 志 对 应 的 脏 页 是 否 在 奔 溃 发 生 时 已 经 刷新 到 磁盘 了 呢 ?” 这 还 得 从 页 面 的 结 
构 说 起 ， 我 们 前 边 说 过 每 个 页 面 都 有 一 个 称 之 为 File Header 的 部 分 ,在 File Header 里 有 一 个 称 之 为 
FIL_PAGE_LSN 的 属性 ， 该 属性 记载 了 最 近 一 次 修改 页 面 时 对 应 的 1sn 值 (其 实 就 是 页 面 控制 块 中 的 
newest_modification 值 ) 。 如 果 在 做 了 某 次 checkpoint 之 后 有 脏 页 被 刷新 到 磁盘 中 ， 那 么 该 页 对 应 的 
FIL_PAGE_LSN 代表 的 1sn 值 肯定 大 于 checkpoint_l1sn 的 值 ， 凡 是 符合 这 种 情况 的 页 面 就 不 需要 重复 执行 
lsn 值 小 于 FIL_PAGE_LSN 的 redo 日 志 了 ， 所 以 更 进一步 提升 了 奔 溃 恢复 的 速度 。 


21.6 遗漏 的 问题 LOG_BLOCK_HDR_NO 是 如 何 计算 的 


我 们 前 边 说 过 ， 对 于 实际 存储 redo 日 志 的 普通 的 log block 来 说 ,在 log block header 处 有 一 个 称 之 为 
LOG_BLOCK_HDR_N0O 的 属性 (忘记 了 的 话 回头 再 看 看 哈 ) ， 我 们 说 这 个 属性 代表 一 个 唯一 的 标号 。 这 个 属性 是 初 
次 使 用 该 block 时 分 配 的 ， 跟 当时 的 系统 1sn 值 有 关 。 使 用 下 边 的 公式 计算 该 block 的 L0G_BLOCK_HDR_NO 值 : 


((lsn / 512) & Ox3FFFFFFFUL) + 1 


这 个 公式 里 的 0x3FFFFFFFUL 可 能 让 大 家 有 点 困惑 ， 其 实 它 的 二 进 制 表示 可 能 更 亲切 一 点 : 


0x3FFFFFFFUL 的 二 进 制 表示 : 


日 名状 古 图 加 国 加 男 男 国 国 辆 国 因 辆 因 男 因 国 国 国 大 国 古 国 国 国 国 加 辆 





总 共有 30 个 二 进 制 位 的 值 为 1 


从 图 中 可 以 看 出 ， 0x3FFFFFFFUL 对 应 的 二 进 制 数 的 前 2 位 为 0， 后 30 位 的 值 都 为 1 。 我 们 刚 开 始 学 计算 机 的 时 候 
就 学 过 ， 一 个 二 进 制 位 与 0 做 与 运算 ( & ) 的 结果 肯定 是 0， 一 个 二 进 制 位 与 1 做 与 运算 ( & ) 的 结果 就 是 原 值 。 

让 一 个 数 和 0x3FFFFFFFUL 做 与 运算 的 意思 就 是 要 将 该 值 的 前 2 个 比特 位 的 值 置 为 0， 这 样 该 值 就 肯定 小 于 或 等 于 
0x3FFFFFFFUL 了 。 这 也 就 说 明了 ， 不 论 lsn 多 大 ，((lsn / 512) & 0x3FFFFFFFUL) 的 值 肯 定 在 

0 ”9x3FFFFFFFUE 之 间 一 再 如 1 的 话 肯定 在 0x40000000UL 之 间 。 而 0x40000000UL 这 个 值 大 家 应 该 很 熟悉 ， 这 
个 值 就 代表 着 16B 。 也 就 是 说 系统 最 多 能 产生 不 重复 的 LOG_BLOCK_HDR_N0 值 只 有 1GB 个 。 设 计 InnoDB 的 大 叔 

规定 redo 日 志文 件 组 中 包含 的 所 有 文件 大 小 总 和 不 得 超过 512GB， 一 个 block 大 小 是 512 字 节 ， 也 就 是 说 redo 日 
志文 件 组 中 包含 的 block 块 最 多 为 1GB 个 ， 所 以 有 1GB 个 不 重复 的 编号 值 也 就 够 用 了 。 


另外 ，L0G BLOCK _HDR NO 值 的 第 一 个 比特 位 比较 特殊 ， 称 之 为 flush bit ， 如 果 该 值 为 1， 代 表 着 本 block 是 在 
某 次 将 log buffer 中 的 block 刷 新 到 磁盘 的 操作 中 的 第 一 个 被 刷 入 的 block。 


22 第 22 章 后 悔 了 怎么 办 -undo 日 志 (上 ) 


标签 : MySQL 是 怎样 运行 的 


22.1 事务 回 滚 的 需 3 


我 们 说 过 事务 需要 保证 原子 性 ， 也 就 是 事务 中 的 操作 要 么 全 部 完成 ， 要 么 什么 也 不 做 。 但 是 偏偏 有 时 候 事 务 执 
行 到 一 半 会 出 现 一 些 情况 ， 比 如 : 


。 情况 一 : 事务 执行 过 程 中 可 能 遇 到 各 种 错误 ， 比 如 服务 器 本 身 的 错误 ， 操 作 系统 错误 ， 甚 至 是 突然 断 电 导致 
的 错误 。 


。 情况 二 : 程序 员 可 以 在 事务 执行 过 程 中 手动 输入 ROLLBACK 语句 结束 当前 的 事务 的 执行 。 


这 两 种 情况 都 会 导致 事务 执行 到 一 半 就 结束 ， 但 是 事务 执行 过 程 中 可 能 已 经 修改 了 很 多 东西 ， 为 了 保证 事务 的 原 
子 性 ， 我 们 需要 把 东西 改 回 原先 的 样子 ， 这 个 过 程 就 称 之 为 回 深 (英文 名 : rollback ) ， 这 样 就 可 以 造成 一 个 
假象 : 这 个 事务 看 起 来 什么 都 没 做 ， 所 以 符合 原子 性 要 求 。 


小 时 候 我 非常 痴迷 于 象棋 ， 总 是 想 找 厉害 的 大 人 下 棋 ， 赢 棋 是 不 可 能 赢 棋 的 ， 这 辈子 都 不 可 能 赢 棋 的 ， 又 不 想 认 
输 ， 只 能 偷偷 的 悔 棋 才 能 勉强 玩 的 下 去 。 悔 棋 就 是 一 种 非常 典型 的 回 深 操作 ， 比 如 棋子 往 前 走 两 步 ， 悔 棋 对 
应 的 操作 就 是 向 后 走 两 步 ; 比如 棋子 往 左 走 一 步 ， 悔 棋 对 应 的 操作 就 是 向 右 走 一 步 。 数 据 库 中 的 回 滚 跟 悔 棋 差 
不 多 ， 你 插入 了 一 条 记录 ， 回 深 操作 对 应 的 就 是 把 这 条 记录 删除 掉 ; 你 更 新 了 一 条 记录 ， 回 深 操作 对 应 的 就 是 
把 该 记录 更 新 为 旧 值 ; 你 删除 了 一 条 记录 ， 回 深 操作 对 应 的 自然 就 是 把 该 记录 再 插 进 去 。 说 的 貌似 很 简单 的 样 
子 [手动 偷 笑 侈 ]。 


从 上 边 的 描述 中 我 们 已 经 能 隐约 感 党 到 ， 每 当 我 们 要 对 一 条 记录 做 改动 时 (这 里 的 改动 可 以 指 INSERT 、 
DELETE 、 UPDATE ) ， 都 需要 留 一 手 一 一 把 回 滚 时 所 需 的 东西 都 给 记 下 来 。 比 方 说 : 




















。 你 插入 一 条 记录 时 ， 至 少 要 把 这 条 记录 的 主键 值 记 下 来 ， 之 后 回 滚 的 时 候 只 需要 把 这 个 主键 值 对 应 的 记录 删 


掉 就 好 了 。 
。 你 删除 了 一 条 记录 ， 至 少 要 把 这 条 记录 中 的 内 容 都 记 下 来 ， 这 样 之 后 回 滚 时 再 把 由 这 些 内 容 组 成 的 记录 插入 
到 表 中 就 好 了 。 


。 你 修改 了 一 条 记录 ， 至 少 要 把 修改 这 条 记录 前 的 旧 值 都 记录 下 来 ， 这 样 之 后 回 滚 时 再 把 这 条 记录 更 新 为 旧 值 
就 好 了 。 
设计 数据 库 的 大 叔 把 这 些 为 了 回 滚 而 记录 的 这 些 东 东 称 之 为 撤销 日 志 ， 英 文 名 为 undo log ， 我 们 也 可 以 土 洋 结 
合 ， 称 之 为 undo 日 志 。 这 里 需要 注意 的 一 点 是 ， 由 于 查询 操作 ( SELECT ) 并 不 会 修改 任何 用 户 记 录 ， 所 以 在 查 
询 操作 执行 时 ， 并 不 需要 记录 相应 的 undo 日 志 。 在 真实 的 InnoDB 中 ， undo 日 志 其 实 并 不 像 我 们 上 边 所 说 的 那 
么 简单 ， 不 同类 型 的 操作 产生 的 undo 日 志 的 格式 也 是 不 同 的， 不 过 先 暂时 把 这 些 容易 让 人 脑子 糊 的 具体 细节 放 
一 放 ， 我 们 先 回 过 头 来 看 看 事务 id 是 个 神 马 玩意 儿 。 


22.2 事务 id 
22.2.1 给 事务 分 配 id 的 时 机 


我 们 前 边 在 路 事务 简介 时 说 过 ,一 个 事务 可 以 是 一 个 只 读 事务 ,或 者 是 一 个 读 写 事务 : 





























。 我 们 可 以 通过 START TRANSACTION READ ONLY 语句 开启 一 个 只 读 事 务 。 


在 只 读 事务 中 不 可 以 对 普通 的 表 (其 他 事务 也 能 访问 到 的 表 ) 进行 增 、 删 、 改 操作 ， 但 可 以 对 临时 表 做 增 、 
删 、 改 操作 。 

。 我 们 可 以 通过 START TRANSACTION READ WRITE 语句 开启 一 个 读 写 事务 ， 或 者 使 用 BEGIN 、 START 
TRANSACTION 语句 开启 的 事务 默认 也 算是 读 写 事务 。 


在 读 写 事务 中 可 以 对 表 执行 增删 改 查 操作 。 


如 果 某 个 事务 执行 过 程 中 对 某 个 表 执 行 了 增 、 删 、 改 操作 ， 那 么 InnoDB 存储 引擎 就 会 给 它 分 配 一 个 独一无二 的 
事务 id ， 分 配方 式 如 下 : 


。 对 于 只 读 事务 来 说 ， 只 有 在 它 第 一 次 对 某 个 用 户 创建 的 临时 表 执 行 增 、 删 、 改 操作 时 才 会 为 这 个 事务 分 配 一 
个 事务 id ， 否 则 的 话 是 不 分 配 事务 id 的 。 





小 贴 士 : 
我 们 前 边 说 过 对 某 个 查询 语句 执行 EXPLAIN 分 析 它 的 查询 计划 时 ， 有 时 候 在 Extra 列 会 看 到 Using 
temporary 的 提示 ， 这 个 表明 在 执行 该 查询 语句 时 会 用 到 内 部 临时 表 。 这 个 所 谓 的 内 部 临时 表 和 我 
们 手动 用 CREATE TEMPORARY TABLE 创 建 的 用 户 临 时 表 并 不 一 样 ， 在 事务 回 滚 时 并 不 需要 把 执行 SELE 
CT 语句 过 程 中 用 到 的 内 部 临时 表 也 回 滚 ， 在 执行 SELECT 语句 用 到 内 部 临时 表 时 并 不 会 为 它 分 配 事务 
id。 
。 对 于 读 写 事务 来 说 ， 只 有 在 它 第 一 次 对 某 个 表 (包括 用 户 创建 的 临时 表 ) 执行 增 、 删 、 改 操作 时 才 会 为 这 个 
事务 分 配 一 个 事务 id ， 否 则 的 话 也 是 不 分 配 事务 id 的 。 
有 的 时 候 虽 然 我 们 开启 了 一 个 读 写 事务 ， 但 是 在 这 个 事务 中 全 是 查询 语句 ， 并 没有 执行 增 、 删 、 改 的 语句 ， 
那 也 就 意味 着 这 个 事务 并 不 会 被 分 配 一 个 事务 id 。 
说 了 半天 ， 事务 id 有 喻 子 用 ”这 个 先 保密 哈 ， 后 边 会 一 步 步 的 详细 踢 明 。 现 在 只 要 知道 只 有 在 事务 对 表 中 的 记 
录 做 改动 时 才 会 为 这 个 事务 分 配 一 个 唯一 的 事务 id 。 
小 贴 士 : 
上 边 描述 的 事务 id 分 配 策 略 是 针对 MySQL 5. 7 来 说 的 ， 前 边 的 版 本 的 分 配方 式 可 能 不 同一 
















































































































































































22.2.2 事务 id 是 怎么 生成 的 


这 个 事务 id 本 质 上 就 是 一 个 数字 ， 它 的 分 配 策略 和 我 们 前 边 提 到 的 对 隐藏 列 row_id ( 当 用 户 没 有 为 表 创 建 主键 
和 UNIQUE 键 时 InnoDB 自动 创建 的 列 ) 的 分 配 策略 大 抵 相 同 ， 具 体 策略 如 下 : 


。 服务 器 会 在 内 存 中 维护 一 个 全 局 变量 ， 每 当 需 要 为 某 个 事务 分 配 一 个 事务 id 时 ， 就 会 把 该 变量 的 值 当 作 事 
务 id 分 配给 该 事务 ， 并 且 把 该 变量 自 增 1。 

。 每 当 这 个 变量 的 值 为 256 的 倍数 时 ， 就 会 将 该 变量 的 值 刷新 到 系统 表 空间 的 页 号 为 5 的 页 面 中 一 个 称 之 为 

Max Trx ID 的 属性 处 ， 这 个 属性 占用 8 个 字 节 的 存储 空间 。 

当 系 统 下 一 次 重新 启动 时 ， 会 将 上 边 提 到 的 Max Trx ID 属性 加 载 到 内 存 中 ， 将 该 值 加 上 256 之 后 赋值 给 我 们 

前 边 提 到 的 全 局 变量 (因为 在 上 次 关机 时 该 全 局 变量 的 值 可 能 大 于 Max Trx ID 属性 值 ) 。 


这 样 就 可 以 保证 整个 系统 中 分 配 的 事务 id 值 是 一 个 递增 的 数字 。 先 被 分 配 id 的 事务 得 到 的 是 较 小 的 事务 id ， 
后 被 分 配 id 的 事务 得 到 的 是 较 大 的 事务 id 。 











22.2.3 trx_id 隐 藏 列 


我 们 前 边 啼 明 InnoDB 记录 行 格式 的 时 候 重 点 强调 过 : 聚 篮 索引 的 记录 除了 会 保存 完整 的 用 户 数据 以 外 ， 而 且 还 
会 自动 添加 名 为 trx_id、roll_pointer 的 隐藏 列 ， 如 果 用 户 没有 在 表 中 定义 主键 以 及 UNIQUE 键 ， 还 会 自动 添加 一 个 
名 为 row_id 的 隐藏 列 。 所 以 一 条 记录 在 页 面 中 的 真实 结构 看 起 来 就 是 这 样 的 : 


记录 的 额外 信息 row id trx_ id roll_pointer 用 户 列 信息 





隐藏 列 row_id 并 不 是 必需 的 





其 中 的 trx_id 列 其 实 还 塞 好 理解 的 ， 就 是 某 个 对 这 个 聚 艇 索引 记录 做 改动 的 语句 所 在 的 事务 对 应 的 事务 id 而 已 
(此 处 的 改动 可 以 是 INSERT 、 DELETE 、 UPDATE 操作 ) 。 至 于 roll_pointer 隐藏 列 我 们 后 边 分 析 ~ 


22.3 undo 日 志 的 格式 


为 了 实现 事务 的 原子 性 ， InnoDB 存储 引擎 在 实际 进行 增 、 删 、 改 一 条 记录 时 ， 都 需要 先 把 对 应 的 undo 日 志 记 
下 来 。 一 般 每 对 一 条 记录 做 一 次 改动 ， 就 对 应 着 一 条 undo 日 志 ， 但 在 某 些 更 新 记录 的 操作 中 ， 也 可 能 会 对 应 着 2 
条 undo 日 志 ， 这 个 我 们 后 边 会 仔细 噶 明 。 一 个 事务 在 执行 过 程 中 可 能 新 增 、 删 除 、 更 新 若干 条 记录 ， 也 就 是 说 
需要 记录 很 多 条 对 应 的 undo 日 志 ， 这 些 undo 日 志 会 被 从 0 开始 编号 ， 也 就 是 说 根据 生成 的 顺序 分 别 被 称 为 第 


0 号 undo 日 志 、 第 1 号 undo 日 志 、...、 第 n 号 undo 日 志 等 ， 这 个 编号 也 被 称 之 为 undo no 。 





























这 些 undo 日 志 是 被 记录 到 类 型 为 FIL_PAGE_UND0_L0G (对 应 的 十 六 进 制 是 0x0002 ， 忘 记 了 页 面 类 型 是 个 哈 的 
同学 需要 回 过 头 再 看 看 前 边 的 章节 ) 的 页 面 中 。 这 些 页 面 可 以 从 系统 表 空间 中 分 配 ， 也 可 以 从 一 种 专门 存放 undo 
日 志 的 表 空间 ， 也 就 是 所 谓 的 undo tablespace 中 分 配 。 不 过 关于 如 何 分 配 存 储 undo 日 志 的 页 面 这 个 事情 我 们 
稍 后 再 说 ， 现 在 先 来 看 看 不 同 操作 都 会 产生 什么 样子 的 undo 日 志 吧 ~ 为 了 故事 的 顺利 发 展 ， 我 们 先 来 创建 一 个 
名 为 undo_denmo 的 表 : 

















CREATE TABLE undo demo ( 
id INT NOT NULL, 
keyl VARCHAR (100) ， 
col VARCHAR(100), 
PRIMARY KEY (id), 
KEY idx keyl (keyl) 
)Engine=InnoDB CHARSET=utf8; 


这 个 表 中 有 3 个 列 ， 其 中 id 列 是 主键 ， 我 们 为 keyl 列 建立 了 一 个 二 级 索引 ， col 列 是 一 个 普通 的 列 。 我 们 前 边 
介绍 InnoDB 的 数据 字典 时 说 过 ， 每 个 表 都 会 被 分 配 一 个 唯一 的 table id ， 我 们 可 以 通过 系统 数据 库 
information schema 中 的 innodb_sys_tables 胡来 查看 某 个 表 对 应 的 table id 是 什么 ， 现 在 我 们 查看 一 下 


undo_demo 对 应 的 table id 是 多 少 : 

















mysql> SELECT x* FROM information schema. innodb sys tables WHERE name = ’ xiaohaizi/undo dem 
0 ; 
TABLE ID | NAME FLAG | N COLS | SPACE | FILE FORMAT | ROW FORMAT | ZIP 
PAGE SIZE | SPACE TYPE 
138 | xiaohaizi/undo demo 33 6 482 | Barracuda | Dynamic 


0 | Single 














1 row in set (0.01 sec) 














从 查询 结果 可 以 看 出 ， undo_demo 表 对 应 的 table id 为 138 ， 先 把 这 个 值 记 住 ， 我 们 后 边 有 用 。 


22.3.1 INSERT 操 作对 应 的 undo 日 志 


我 们 前 边 说 过 ， 当 我 们 向 表 中 插入 一 条 记录 时 会 有 乐观 折 





fi 入 和 悲观 提 


入 的 区 分 ， 但 是 不 管 怎么 插入 ， 最 终 导致 





的 结果 就 是 这 条 记录 被 放 到 了 一 个 数据 页 中 。 如 果 和 希望 回 滚 这 个 插入 操作 ， 那 么 把 这 条 记录 删除 就 好 了 ， 也 就 是 
说 在 写 对 应 的 undo 日 志 时 ， 主 要 是 把 这 条 记录 的 主键 信息 记 上 。 所 以 设计 InnoDB 的 大 叔 设 计 了 一 个 类 型 为 


TRX_UNDO_INSERT_REC 的 undo 日 志 ， 它 的 


完整 结 


构 如 下 图 所 示 : 


TRX_UNDO_INSERT_REC 类 型 的 undo 日 志 结 构 


(slalole) Msleelfte | 本 条 undo 日 志 结 束 ， 下 一 条 开始 时 在 页 面 中 的 地 址 


undo type | 本 条 undo 日 志 的 类 型 ， 也 就 是 TRX_UNDO_INSERT_REC 


ValeloWele, 本 条 undo 日 志 对 应 的 编号 


ee 本 条 undo 日 志 对 应 的 记录 所 在 表 的 table id 


主键 的 每 个 列 占 用 的 存储 空间 大 小 和 真实 值 


<len, value> 列 表 


cel 胡 (weie 上 一 条 undo 日 志 结 束 ， 本 条 开始 时 在 页 面 中 的 地 址 





主键 各 列 信息 : | 


根据 示意 图 我 们 强调 几 点 : 


。 undo no 在 一 个 事务 中 是 从 0 开始 递增 的 ， 也 就 是 说 只 要 事务 没 提交 ， 每 生成 一 条 undo 日 志 ， 那 么 该 条 日 
志 的 undo no 就 增 1。 

如 果 记录 中 的 主键 只 包含 一 个 列 ， 那么 在 类 型 为 TRX_UNDO_INSERT_REC 的 undo 日 志 中 只 需要 把 该 列 占 用 的 

存储 空间 大 小 和 真实 值 记录 下 来 ， 如 果 记 录 中 的 主键 包含 多 个 列 ， 那 么 每 个 列 占用 的 存储 空间 大 小 和 对 应 的 

真实 值 都 需要 记录 下 来 (图 中 的 len 就 代表 列 占用 的 存储 空间 大 小 ， value 就 代表 列 的 真实 值 ) 。 


小 贴 士 : 

当 我 们 向 茶 个 表 中 插入 一 条 记录 时 ， 实 际 上 需要 向 聚 秘 索引 和 所 有 的 二 级 索引 都 插入 一 条 记录 。 不 过 记 
录 undo 日 志 时 ， 我 们 只 需要 考虑 向 聚 仿 索引 插入 记录 时 的 情况 就 好 了 ， 因 为 其 实 聚 复 索 引 记录 和 二 级 索 
引 记录 是 一 一 对 应 的 ， 我 们 在 回 滚 插入 操作 时 ， 只 需要 知道 这 条 记录 的 主键 信息 ， 然 后 根据 主键 信息 做 
对 应 的 删除 操作 ， 做 删除 操作 时 就 会 顺带 着 把 所 有 二 级 索引 中 相应 的 记录 也 删除 掉 。 后 边 说 到 的 DELETE 
操作 和 UPDATE 操 作对 应 的 undo 日 志 也 都 是 针对 聚 秘 索引 记录 而 言 的 ， 我 们 之 后 就 不 强调 了 。 


现在 我 们 向 undo_demo 中 插入 两 条 记录 : 
BEGIN; # 显 式 开 启 一 个 事务 ， 假 设 该 事务 的 id 为 100 














# 插入 两 条 记录 
INSERT INTO undo demo(id, keyl, col) 
VALUES (1，’” AWM ,狙击 枪 ')，(2，’ M416 ， ”步枪 ) ; 


因为 记录 的 主键 只 包含 一 个 id 列 ， 所 以 我 们 在 对 应 的 undo 日 志 中 只 需要 将 待 插 入 记录 的 id 列 占 用 的 存储 空间 
长 度 ( id 列 的 类 型 为 INT ， INT 类 型 占用 的 存储 空间 长 度 为 4 个 字 节 ) 和 真实 值 记录 下 来 。 本 例 中 插入 了 两 条 
记录 ， 所 以 会 产生 两 条 类 型 为 TRX UNDO INSERT REC 的 undo 日 志 : 


。 第 一 条 undo 日 志 的 undo no 为 0， 记录 主键 占用 的 存储 空间 长 度 为 4 ， 真 实 值 为 1 。 画 一 个 示意 图 就 是 
这 样 : 


地 址 end of record 
TRX_UNDO_INSERT_REC undo type 
undo no 


table id 


主键 各 列 信 息 : 《len，value> 列 表 


start of record 





。 第 二 条 undo 日 志 的 undo no 为 1 ， 记 录 主 键 占用 的 存储 空间 长 度 为 4 ， 真 实 值 为 2 。 画 一 个 示意 图 就 是 
这 样 (与 第 一 条 undo 日 志 对 比 ， undo no 和 主键 各 列 信息 有 不 同 ) : 


地 址 end of record 
TRX_UNDO_INSERT_REC undo type 
undo no 
table id 


主键 各 列 信 息 :《len，value> 列 表 


start of record 





为 了 最 大 限度 的 节省 undo 日 志 占 用 的 存储 空间 ， 和 我 们 前 边 说 过 的 redo 日 志 类 似 ， 设 计 InnoDB 的 大 要 会 
给 undo 日 志 中 的 某 些 属 性 进行 压缩 处 理 ， 有 具体 的 压缩 细节 我 们 就 不 路 明了 。 


小 贴 士 : 


22.3.1.1 roll pointer 史 藏 列 的 念 广 


是 时 候 揭 开 roll_pointer 的 真实 面纱 了 ， 这 个 占用 7 个 字 节 的 字段 其 实 一 点 都 不 神秘 ， 本 质 上 就 是 一 个 指向 记 
录 对 应 的 undo 日 志 的 一 个 指针 。 比 方 说 我 们 上 边 向 undo_demo 表 里 插 入 了 2 条 记录 ， 每 条 记录 都 有 与 其 对 应 的 
一 条 undo 日 志 。 记 录 被 存储 到 了 类 型 为 FIL_PAGE_INDEX 的 页 面 中 (就 是 我 们 前 边 一 直 所 说 的 数据 页 ) ， 

undo 日 志 被 存放 到 了 类 型 为 FIL PAGE_UND0_L0G 的 页 面 中 。 效 果 如 图 所 示 : 











类 型 为 FIL_PAGE_INDEX 的 页 面 类 型 为 FIL_PAGE_UND0_L0G 的 页 面 





记录 的 额外 信息 。 1 





记录 的 额外 信息 ”2 100 








这 个 是 trx_id 隐 藏 列 这 个 是 rol |_poi nter 隐 藏 列 


从 图 中 也 可 以 更 直观 的 看 出 来 ， roll_pointer 本 质 就 是 一 个 指针 ， 指 向 记录 对 应 的 undo 日 志 。 不 过 这 7 个 字 节 
的 roll_pointer 的 每 一 个 字 节 具体 的 含义 我 们 后 边 啼 归 完 如 何 分 配 存储 undo 日 志 的 页 面 之 后 再 具体 说 哈 ~ 


22.3.2 DELETE 操 作对 应 的 undo 日 志 


我 们 知道 插入 到 页 面 中 的 记录 会 根据 记录 头 信息 中 的 next_record 属性 组 成 一 个 单 向 链表 ， 我 们 把 这 个 链表 称 之 
为 正常 记录 链表 ; 我 们 在 前 边 踪 功 数 据 页 结构 的 时 候 说 过 ， 被 删除 的 记录 其 实 也 会 根据 记录 头 信息 中 的 
next_record 属性 组 成 一 个 链表 ， 只 不 过 这 个 链表 中 的 记录 占用 的 存储 空间 可 以 被 重新 利用 ， 所 以 也 称 这 个 链表 
为 垃圾 链表 。 Page Header 部 分 有 一 个 称 之 为 PAGE_FREE 的 属性 ， 它 指向 由 被 删除 记录 组 成 的 垃圾 链表 中 的 头 
节点 。 为 了 故事 的 顺利 发 展 ， 我 们 先 画 一 个 图 ， 假 设 此 刻 某 个 页 面 中 的 记录 分 布 情况 是 这 样 的 〈 这 个 不 是 
undo_demo 表 中 的 记录 ， 只 是 我 们 随便 举 的 一 个 例子 ) : 





















这 个 是 记录 头 信 息 中 的 
delete_mask 属 性 








为 了 突出 主题 ， 在 这 个 简化 版 的 示意 图 中 ， 我 们 只 把 记录 的 delete_mask 标志 位 展示 了 出 来 。 从 图 中 可 以 看 

出 ， 正常 记录 链表 中 包含 了 3 条 正常 记录 ， 垃圾 链表 里 包含 了 2 条 已 删除 记录 ， 在 垃圾 链表 中 的 这 些 记 录 占 用 
的 存储 空间 可 以 被 重新 利用 。 页 面 的 Page Header 部 分 的 PAGE_FREE 属性 的 值 代表 指向 垃圾 链表 头 节点 的 指 
针 。 假 设 现在 我 们 准备 使 用 DELETE 语句 把 正常 记录 链表 中 的 最 后 一 条 记录 给 删除 掉 ， 其 实 这 个 删除 的 过 程 需 
经 历 两 个 阶段 : 


。 阶段 一 : 仅仅 将 记录 的 delete_mask 标识 位 设置 为 1 ， 其 他 的 不 做 修改 (其实 会 修改 记录 的 trx_id 、 
roll_pointer 这 些 隐藏 列 的 值 ) 。 设 计 InnoDB 的 大 叔 把 这 个 阶段 称 之 为 delete mark 。 


把 这 个 过 程 画 下 来 就 是 这 样 : 


PAGE_FREE : 


正常 记录 已 删除 记录 


正常 记录 已 删除 记录 


1 ”中 间 状 态 记 录 





CC 虽然 记录 的 delete_mask 值 被 设置 
为 1， 但 却 没有 移动 到 垃圾 链表 


ee 一 一 


= 


可 以 看 到 ， 正常 记录 链表 中 的 最 后 一 条 记录 的 delete_mask 值 被 设置 为 1 ， 但 是 并 没有 被 加 入 到 垃圾 链 
表 。 也 就 是 此 时 记录 处 于 一 个 中 间 状 态 ， 跟 猪八戒 照 镜子 一 一 里 外 不 是 人 似 的 。 在 删除 语句 所 在 的 事务 提 
交 之 前 ， 被 删除 的 记录 一 直 都 处 于 这 种 所 谓 的 中 间 状 态 。 


小 贴 士 : 
为 喻 会 有 这 种 奇怪 的 中 间 状 态 呢 ?其 实 主要 是 为 了 实现 一 个 称 之 为 MVCC 的 功能 ， 喻 哈 ， 稍 后 再 介 


绍 。 


。 阶段 二 : 当 该 删除 语句 所 在 的 事务 提交 之 后 ， 会 有 专门 的 线程 后 来 真正 的 把 记录 删除 掉 。 所 谓 真 正 的 删除 就 
是 把 该 记录 从 正常 记录 链表 中 移 除 ， 并 且 加 入 到 垃圾 链表 中 ， 然 后 还 要 调整 一 些 页 面 的 其 他 信息 ， 比 如 页 
面 中 的 用 户 记录 数 量 PAGE_N_RECS 、 上 次 插入 记录 的 位 置 PAGE_LAST_INSERT 、 垃 圾 链表 头 节 点 的 指针 

PAGE_FREE 、 页 面 中 可 重用 的 字 节 数量 PAGE_GARBAGE 、 还 有 页 目录 的 一 些 信息 等 等 。 设 计 InnoDB 的 大 叔 
把 这 个 阶段 称 之 为 purge 。 


把 阶段 二 执行 完了 ， 这 条 记录 就 算是 真正 的 被 删除 掉 了 。 这 条 已 删除 记录 占用 的 存储 空间 也 可 以 被 重新 利 
用 了 。 画 下 来 就 是 这 样 : 












虽然 记录 的 delete_mask 值 被 设 
为 1， 但 却 没有 移动 到 垃圾 链表 


对 照 着 图 我 们 还 要 注意 一 点 ， 将 被 删除 记录 加 入 到 垃圾 链表 时 ， 实 际 上 加 入 到 链表 的 头 节点 处 ， 会 跟着 修 
改 PAGE_FREE 属性 的 值 。 


小 贴 士 : 

页 面 的 Page Header 部 分 有 一 个 PAGE_GARBAGE 属 性 ， 该 属性 记录 着 当前 页 面 中 可 重用 存储 空间 占用 的 总 
字 节 数 。 每 当 有 已 删除 记录 被 加 入 到 垃圾 链表 后 ， 都 会 把 这 个 PAGE_GARBAGE 属 性 的 值 加 上 该 已 删除 记录 
占用 的 存储 空间 大 小 。PAGE_FREE 指 向 垃圾 链表 的 头 节 点 ， 之 后 每 当 新 插入 记录 时 ， 首 先 判断 PAGE_FREFE 
指向 的 头 节点 代表 的 已 删除 记录 占用 的 存储 空间 是 否 足够 容纳 这 条 新 插入 的 记录 ， 如 果 不 可 以 容纳 ， 就 
直接 向 页 面 中 申请 新 的 空间 来 存储 这 条 记录 (是 的 ， 你 没 看 错 ， 并 不 会 尝试 遍历 整个 垃圾 链表 ， 找 到 一 
个 可 以 容纳 新 记录 的 节点 ) 。 如 果 可 以 容纳 ， 那 么 直接 重用 这 条 已 删除 记录 的 存储 空间 ， 并 且 把 PAGE 下 
REE 指 向 垃圾 链表 中 的 下 一 条 已 删除 记录 。 但 是 这 里 有 一 个 问题 ， 如 果 新 插入 的 那 条 记录 占用 的 存储 空 
间 大 小 小 于 垃圾 链表 的 头 节点 占用 的 存储 空间 大 小 ， 那 就 意味 头 节点 对 应 的 记录 占用 的 存储 空间 里 有 一 
部 分 空间 用 不 到 ， 这 部 分 空间 就 被 称 之 为 碎片 空间 。 那 这 些 碎片 空间 岂 不 是 永远 都 用 不 到 了 么 ? 其 实 也 
不 是 ， 这 些 碎片 空间 占用 的 存储 空间 大 小 会 被 统计 到 PAGE_GARBAGE 属 性 中 ， 这 些 碎片 空间 在 整个 页 面 快 
使 用 完 前 并 不 会 被 重新 利用 ， 不 过 当 页 面 快 满 时 ， 如 果 再 插入 一 条 记录 ， 此 时 页 面 中 并 不 能 分 配 一 条 完 
整 记录 的 空间 ， 这 时 候 会 首先 看 一 看 PAGE_GARBAGE 的 空间 和 剩余 可 利用 的 空间 加 起 来 是 不 是 可 以 容纳 下 
这 条 记录 ， 如 果 可 以 的 话 ，InnoDB 会 尝试 重新 组 织 页 内 的 记录 ， 重 新 组 织 的 过 程 就 是 先 开 辟 一 个 临时 页 
面 ， 把 页 面 内 的 记录 依次 插入 一 遍 ， 因 为 依次 插入 时 并 不 会 产生 碎片 ， 之 后 再 把 临时 页 面 的 内 容 复 制 到 
本 页 面 ， 这 样 就 可 以 把 那些 碎片 空间 都 解放 出 来 (很 显然 重新 组 织 页 面 内 的 记录 比较 耗费 性 能 


从 上 边 的 描述 中 我 们 也 可 以 看 出 来 ， 在 删除 语句 所 在 的 事务 提交 之 前 ， 只 会 经 历 阶段 一 ， 也 就 是 delete mark 
阶段 (提交 之 后 我 们 就 不 用 回 滚 了 ， 所 以 只 需 考虑 对 删除 操作 的 阶段 一 做 的 影响 进行 回 滚 ) 。 设 计 InnoDB 的 大 
叔 为 此 设计 了 一 种 称 之 为 TRX_UNDO_DEL_MARK_REC 类 型 的 undo 日 志 ， 它 的 完整 结构 如 下 图 所 示 : 
























































































































































































































































































































































TRX_UNDO_DEL_MARK_REC 类 型 的 undo 日 志 结 构 
end of record 本 条 undo 日 志 结 束 ， 下 一 条 开始 时 在 页 面 中 的 地 址 


undo type 本 条 undo 日 志 的 类 型 ， 也 就 是 TRX_UNDO_DEL_MARK_REC 


undo no 本 条 undo 日 志 对 应 的 编号 

table id 本 条 undo 日 志 对 应 的 记录 所 在 表 的 table id 

info bits 记录 头 信 息 的 前 4 个 比特 位 的 值 以 及 record_type 的 值 
[ej[e ip 人 le| 记录 旧 的 trx_id 值 


old roll_pointer 记录 旧 的 roll_pointer 值 


主键 各 列 信息 : 
<len, value> 列 表 主键 的 每 个 列 占 用 的 存储 空间 大 小 和 真实 什 


index_col_info len 也 就 是 下 边 的 “索引 列 各 列 信息 ”部 分 
和 本 部 分 占用 的 存储 空间 大 小 


索引 列 各 列 信息 : 凡是 被 索引 的 列 的 各 列 信息 


<pos, len, value> 


start of record 上 一 条 undo 日 志 结 束 ， 本 条 开始 时 在 页 面 中 的 地 址 





额 滴 个 神 呐 ， 这 个 里 边 的 属性 也 太 多 了 点 儿 吧 ~ (其 实 大 部 分 属性 的 意思 我 们 上 边 已 经 介绍 过 了 ) 是 的 ， 的 确 
有 点 多 ， 不 过 大 家 干 万 不 要 在 意 ， 如 果 记 不 住 干 万 不 要 勉强 自己 ， 我 这 里 把 它们 都 列 出 来 让 大 家 混 个 脸 熟 而 已 。 
劳 烦 大 家 先 克 服 一 下 密集 恐 急症 ， 再 抬头 大 致 看 一 遍 上 边 的 这 个 类 型 为 TRX_UNDO_DEL MARK_REC 的 undo 日 志 中 
的 属性 ， 特 别 注意 一 下 这 几 点 : 


。 在 对 一 条 记录 进行 delete mark 操作 前 ， 需 要 把 该 记录 的 旧 的 trx_id 和 roll_pointer 隐藏 列 的 值 都 给 记 
到 对 应 的 undo 日 志 中 来 ， 就 是 我 们 图 中 显示 的 old trx_id 和 old roll_pointer 属性 。 这 样 有 一 个 好 处 ， 
那 就 是 可 以 通过 undo 日 志 的 old roll_pointer 找到 记录 在 修改 之 前 对 应 的 undo 日 志 。 比 方 说 在 一 个 事务 
中 ， 我 们 先 插入 了 一 条 记录 ， 然 后 又 执行 对 该 记录 的 删除 操作 ， 这 个 过 程 的 示意 图 就 是 这 样 : 





正常 记录 roll_pointer | 中 间 状 态 记 录 roll_pointer 





执行 删除 操作 
> 


insert undo delete undo old roll_pointer 


insert undo 





从 图 中 可 以 看 出 来 ， 执 行 完 delete mark 操作 后 ， 它 对 应 的 undo 日 志和 INSERT 操作 对 应 的 undo 日 志 就 串 
成 了 一 个 链表 。 这 个 很 有 意思 啊 ， 这 个 链表 就 称 之 为 版 本 链 ， 现 在 貌似 看 不 出 这 个 版 本 链 有 了 喻 用 ， 等 我 们 
再 往 后 看 看 ， 讲 完 UPDATE 操作 对 应 的 undo 日 志 后 ， 这 个 所 谓 的 版 本 链 就 慢 慢 的 展现 出 它 的 牛 通 之 处 了 。 
与 类 型 为 TRX_UNDO_INSERT_REC 的 undo 日 志 不 同 ， 类 型 为 TRX_UNDO_DEL MARK_REC 的 undo 日 志 还 多 了 一 
个 索引 列 各 列 信息 的 内 容 ， 也 就 是 说 如 果 某 个 列 被 包含 在 某 个 索引 中 ， 那 么 它 的 相关 信息 就 应 该 被 记录 到 
这 个 索引 列 各 列 信息 部 分 ， 所 谓 的 相关 信息 包括 该 列 在 记录 中 的 位 置 (用 pos 表示 ) ， 该 列 占 用 的 存储 空 
间 大 小 (用 len 表示 ) ， 该 列 实际 值 (用 value 表示 ) 。 所 以 索引 列 各 列 信息 存储 的 内 容 实质 上 就 是 
《pos，1len，value>》 的 一 个 列表 。 这 部 分 信息 主要 是 用 在 事务 提交 后 ， 对 该 中 间 状 态 记 录 做 真正 删除 的 阶 
段 二 ， 也 就 是 purge 阶段 中 使 用 的 ， 具 体 如 何 使 用 现在 我 们 可 以 忽略 ~ 


该 介绍 的 我 们 介绍 完了 ， 现 在 继续 在 上 边 那 个 事务 id 为 100 的 事务 中 删除 一 条 记录 ， 比 如 我 们 把 id 为 1 的 那 条 记 
录 删 除 掉 : 


BEGIN; # 显 式 开 局 一 个 事务 ， 假 设 该 事务 的 id 为 100 














# 插入 两 条 记录 
INSERT INTO undo demo(id, keyl, col) 
VALUES (1，’ AWM? ， ?狙击 枪 ')，(2，’” M416 ”，’ 步枪 ) ; 


# 删除 一 条 记录 
DELETE FROM undo demo WHERE id = 1; 


这 个 delete mark 操作 对 应 的 undo 日 志 的 结构 就 是 这 样 : 





TRX_UNDO_DEL_MARK 
_REC 
2 


138 i 地 址 | end of record 


undo type 


略 ~ i TRX_UNDO_INSERT_REC 


i ， | 


138 


主键 各 列 信息 


start of record 





对 照 着 这 个 图 ， 我 们 得 注意 下 边 几 点 : 


因为 这 条 undo 日 志 是 id 为 100 的 事务 中 产生 的 第 3 条 undo 日 志 ， 所 以 它 对 应 的 undo no 就 是 2 。 
在 对 记录 做 delete mark 操作 时 ， 记 录 的 trx_id 隐藏 列 的 值 是 100 (也 就 是 说 对 该 记录 最 近 的 一 次 修改 就 
发 生 在 本 事务 中 ) ， 所 以 把 100 填 入 old trx_id 属性 中 。 然 后 把 记录 的 roll_pointer 隐藏 列 的 值 取出 
来 ， 填 入 old roll_pointer 属性 中 ， 这 样 就 可 以 通过 old roll_pointer 属性 值 找到 最 近 一 次 对 该 记录 做 改 
动 时 产生 的 undo 日 志 
由 于 undo_demo 表 中 有 2 个 索引 : 一 个 是 聚 簇 索 引 ， 一 个 是 二 级 索引 idx_keyl 。 只 要 是 包含 在 索引 中 的 
列 ， 那 么 这 个 列 在 记录 中 的 位 置 ( pos ) ， 占用 存储 空间 大 小 ( len ) 和 实际 值 ( value ) 就 需要 存储 到 
undo 日 志 中 。 
" 对 于 主键 来 说 ， 只 包含 一 个 id 列 ， 存储 到 undo 日 志 中 的 相关 信息 分 别 是 : 
。 pos : id 列 是 主键 ， 也 就 是 在 记录 的 第 一 个 列 ， 它 对 应 的 pos 值 为 0 。 pos 占用 1 个 字 节 来 存 
储 。 
o。 len : id 列 的 类 型 为 INT ， 占 用 4 个 字 节 ， 所 以 len 的 值 为 4 。 len 占用 1 个 字 节 来 存储 。 
。 value : 在 被 删除 的 记录 中 id 列 的 值 为 1 ， 也 就 是 value 的 值 为 1 。 value 占用 4 个 字 节 来 存 
储 。 


画 一 个 图 演示 一 下 就 是 这 样 : 


id 列 相关 信息 


-1 字 节 下 -1 字 节 局 KR 一 一 一 一 4 字 节 一 一 一 一 ”| 





pos len value 


所 以 对 于 id 列 来 说 ， 最 终 存 储 的 结果 就 是 “0，4，1> ， 人 存储 这 些 信息 占用 的 存储 空间 大 小 为 1 + 
1 + 4 = 6 个 字 节 。 
" 对 于 idx_keyl 来 说 ， 只 包含 一 个 keyl 列 ， 存储 到 undo 日 志 中 的 相关 信息 分 别 是 : 

o。 pos : keyl 列 是 排 在 id 列 、 trx_id 列 、 roll_pointer 列 之 后 的 ， 它 对 应 的 pos 值 为 3 。 
pos 占用 1 个 字 节 来 存储 。 

o len : keyl 列 的 类 型 为 VARCHAR (100) ， 使 用 utf8 字符 集 ， 被 删除 的 记录 实际 存储 的 内 容 是 
AWM ， 所 以 一 共 占 用 3 个 字 节 ， 也 就 是 所 以 len 的 值 为 3 。 len 占用 1 个 字 节 来 存储 。 

o。 _ value : 在 被 删除 的 记录 中 keyl 列 的 值 为 AWM ， 也 就 是 value 的 值 为 AWM 。 value 占用 3 个 字 节 
来 存储 。 


画 一 个 图 演示 一 下 就 是 这 样 : 


key1 列 相关 信息 
-1 字 节 下 -1 字 节 局 一 一 一 ”3 字 节 一 一 一 


4 





POS len value 


所 以 对 于 keyl 列 来 说 ， 最 终 存 储 的 结果 就 是 <3，3，’ AWM > ， 人 存储 这 些 信息 占用 的 存储 空间 大 小 
为 1+ 1 + 3 = 5 个 字 节 。 


从 上 边 的 叙述 中 可 以 看 到 ，“0，4，1> 和 《3，3，“ AWM > 共 占 用 11 个 字 节 。 然 后 index_col_info 


len 本 身 占用 2 个 字 节 ， 所 以 加 起 来 一 共 占 用 13 个 字 节 ， 把 数字 13 就 填 到 了 index_col_info len 的 
属性 中 。 


22.3.3 UPDATE 操 作对 应 的 undo 日 志 
在 执行 UPDATE 语句 时 ， InnoDB 对 更 新 主键 和 不 更 新 主键 这 两 种 情况 有 截然 不 同 的 处 理 方案 。 


22.3.3.1 不 更 新 主键 的 情况 
在 不 更 新 主键 的 情况 下 ， 又 可 以 细 分 为 被 更 新 的 列 占用 的 存储 空间 不 发 生变 化 和 发 生变 化 的 情况 。 
。 就 地 更 新 (in-place update) 
更 新 记录 时 ， 对 于 被 更 新 的 每 个 列 来 说 ， 如 果 更 新 后 的 列 和 更 新 前 的 列 占 用 的 存储 空间 都 一 样 大 ， 那 么 就 可 
以 进行 就 地 更 新 ， 也 就 是 直接 在 原 记录 的 基础 上 修改 对 应 列 的 值 。 再 次 强调 一 边 ， 是 每 个 列 在 更 新 前 后 占 
用 的 存储 空间 一 样 大 ， 有 任何 一 个 被 更 新 的 列 更 新 前 比 更 新 后 占用 的 存储 空间 大 ， 或 者 更 新 前 比 更 新 后 占用 


的 存储 空间 小 都 不 能 进行 就 地 更 新 。 比 方 说 现在 undo_demo 表 里 还 有 一 条 id 值 为 2 的 记录 ， 它 的 各 个 列 
占用 的 大 小 如 图 所 示 (因为 采用 utf8 字符 集 ， 所 以 “步枪 ”这 两 个 字符 占用 6 个 字 节 ) : 





记录 的 额外 信息 2 





假如 我 们 有 这 样 的 UPDATE 语句 : 


UPDATE undo demo 
SET keyl = "P92' ，col = “手枪 
WHERE id = 2; 





在 这 个 UPDATE 语句 中 ， col 列 从 步枪 被 更 新 为 手枪 ， 前 后 都 占用 6 个 字 节 ， 也 就 是 占用 的 存储 空间 大 小 
未 改变 ; keyl 列 从 M416 被 更 新 为 P92 ， 也 就 是 从 4 个 字 节 被 更 新 为 3 个 字 节 ， 这 就 不 满足 就 地 更 新 需 
要 的 条 件 了 ， 所 以 不 能 进行 就 地 更 新 。 但 是 如 果 UPDATE 语句 长 这 样 : 








UPDATE undo demo 
SET keyl = “M249 ，col = 机枪 
WHERE id = 2; 





由 于 各 个 被 更 新 的 列 在 更 新 前 后 占用 的 存储 空间 是 一 样 大 的 ， 所 以 这 样 的 语句 可 以 执行 就 地 更 新 。 
。 先 删除 掉 旧 记录 ， 再 插入 新 记录 


在 不 更 新 主键 的 情况 下 ， 如 果 有 任何 一 个 被 更 新 的 列 更 新 前 和 更 新 后 占用 的 人 存储 空间 大 小 不 一 致 ， 那 么 就 需 
要 先 把 这 条 | 旧 的 记录 从 聚 簇 索 引 页 面 中 删除 掉 ， 然 后 再 根据 更 新 后 列 的 值 创 建 一 条 新 的 记录 插入 到 页 面 中 。 


请 注意 一 下 ， 我 们 这 里 所 说 的 删除 并 不 是 delete mark 操作 ， 而 是 真正 的 删除 掉 ， 也 就 是 把 这 条 记录 从 正 
常 记录 链表 中 移 除 并 加 入 到 垃圾 链表 中 ， 并 且 修 改 页 面 中 相应 的 统计 信息 (比如 PAGE FREE 、 

PAGE _GARBAGE 等 这 些 信 息 ) 。 不 过 这 里 做 真正 删除 操作 的 线程 并 不 是 在 啼 明 DELETE 语句 中 做 purge 操作 

时 使 用 的 另外 专门 的 线程 ， 而 是 由 用 户 线程 同步 执行 真正 的 删除 操作 ， 真 正 删除 之 后 紧 接 着 就 要 根据 各 个 列 
更 新 后 的 值 创 建 的 新 记录 插入 。 


这 里 如 果 新 创建 的 记录 占用 的 存储 空间 大 小 不 超过 旧 记 录 占 用 的 空间 ， 那 么 可 以 直接 重用 被 加 入 到 垃圾 链 
表 中 的 旧 记 录 所 占用 的 存储 空间 ， 否 则 的 话 需要 在 页 面 中 新 申请 一 段 空间 以 供 新 记录 使 用 ， 如 果 本 页 面 内 已 
经 没有 可 用 的 空间 的 话 ， 那 就 需要 进行 页 面 分 裂 操 作 ， 然 后 再 插入 新 记录 。 


针对 UPDATE 不 更 新 主键 的 情况 (包括 上 边 所 说 的 就 地 更 新 和 先 删 除 旧 记录 再 插入 新 记录 ) ， 设 计 InnoDB 的 大 本 
们 设计 了 一 种 类 型 为 TRX_UNDO_UPD_EXIST_REC 的 undo 日 志 ， 它 的 完整 结构 如 下 : 





TRX_UNDO_UPD_EXI1ST_REC 类 型 的 undo 日 志 结 构 
end of record 本 条 undo 日 志 结 来 ， 下 一 条 开始 时 在 页 面 中 的 地 址 


undo type 本 条 undo 日 志 的 类 型 ， 也 就 是 TRX_UNDO_UPD_EXIST_REC 


undo no 本 条 undo 日 志 对 应 的 编号 


table id 本 条 undo 上 日 志 对 应 的 记录 所 在 表 的 table id 


[oleolle 记录 头 信 息 的 前 4 个 比特 位 的 值 以 及 record_ type 的 值 


old trx_id 记录 旧 的 trx_id 值 


old roll_pointer 记录 旧 的 roll_pointer 值 


| 信息 . 
主键 各 列 信息 : 主键 的 每 个 列 占用 的 存储 空间 大 小 和 真实 人 
<len, value> 列 表 


n_updated 共有 多 少 个 列 被 更 新 了 


ei 被 更 新 的 列 更 新 前 信息 


old_value> 列 表 


<F 


Ce 也 遍 是 下 边 的 “索引 列 各 列 信息 ”部 分 
和 本 部 分 占用 的 存储 空间 大 小 


案 引 列 各 列 信息 : 凡是 被 索引 的 列 的 各 列 信息 


<pos, len, value> 列 表 


start of record 上 一 条 undo 日 志 结 来 ， 本 条 开始 时 在 页 面 中 的 地 址 





其 实 大 部 分 属性 和 我 们 介绍 过 的 TRX_UNDO_DEL MARK_REC 类 型 的 undo 日 志 是 类 似 的 ， 不 过 还 是 要 注意 这 么 几 
点 : 
。 n_updated 属性 表示 本 条 UPDATE 语句 执行 后 将 有 几 个 列 被 更 新 ， 后 边 跟 着 的 《pos，old_len，old_valuey> 
分 别 表示 被 更 新 列 在 记录 中 的 位 置 、 更 新 前 该 列 占 用 的 存储 空间 大 小 、 更 新 前 该 列 的 真实 值 。 





。 如 果 在 UPDATE 语句 中 更 新 的 列 包含 索引 列 ， 那 么 也 会 添加 索引 列 各 列 信息 这 个 部 分 ， 否 则 的 话 是 不 会 添加 
这 个 部 分 的 。 


现在 继续 在 上 边 那 个 事务 id 为 100 的 事务 中 更 新 一 条 记录 ， 比 如 我 们 把 id 为 2 的 那 条 记录 更 新 一 下 : 


BEGIN; # 显 式 开 局 一 个 事务 ， 假 设 该 事务 的 id 为 100 





# 插入 两 条 记录 
INSERT INTO undo demo(id, keyl, col) 
VALUES (1，’ AWM  ,，’ 狙击 枪 ')，(2，’” M416’ ，’ 步枪 ' ) ; 


# 删除 一 条 记录 
DELETE FROM undo demo WHERE id = 1: 


# 更 新 一 条 记录 

UPDATE undo demo 
SET keyl = “M249”，col = 机枪: 
WHERE id = 2; 


这 个 UPDATE 语句 更 新 的 列 大 小 都 没有 改动 ， 所 以 可 以 采用 就 地 更 新 的 方式 来 执行 ， 在 真正 改动 页 面 记 录 时 ， 会 
先 记 录 一 条 类 型 为 TRX UND0O_ UPD EXIST REC 的 undo 日 志 ， 长 这 样 : 





TRX_UNDO_UPD_EX1ST_REC 类 型 的 undo 日 志 结 构 


end of record end of record 





TRX_UNDO UPD _EXIS 
T_REC 


end of record 


地 址 


undo type 


| 


undo no 


TRX_UNDO_INSERT_REC | 


table id 





主键 各 列 信息 :《len，value> 列 表 


start of record 


被 更 新 的 列 更 新 前 信息 





本 部 分 和 下 一 个 部 分 占用 的 存储 空间 大 小 
索引 列 各 列 信息 : 《pos，len，value> 列 表 


start of record | 上 一 条 undo 日 志 结 来 ， 本 条 开始 时 在 页 面 中 的 地 址 


对 照 着 这 个 图 我 们 注意 一 下 这 几 个 地 方 : 


。 因为 这 条 undo 日 志 是 id 为 100 en undo 日 志 ， 所 以 它 对 应 的 undo no 就 是 3。 

。 这 条 日 志 的 roll_pointer 指向 undo no 为 1 的 那 条 日 志 ， 也 就 是 插入 主键 值 为 2 的 记录 时 产生 的 那 条 
undo 日 志 0 人 目 志 
。 由 于 本 条 UPDATE 寿 句 中 更 新 了 索引 列 keyl 的 值 ， 所 以 需要 记录 一 下 索引 列 各 列 信息 部 分 ， 也 就 是 把 主键 
和 keyl 列 更 新 前 的 信息 填 入 。 








22.3.3.2 更 新 主键 的 情况 


在 聚 复 索 引 中 ， 记 录 是 按照 主键 值 的 大 小 连 成 了 一 个 单 向 链表 的 ， 如 果 我 们 更 新 了 某 条 记录 的 主键 值 ， 意 味 着 这 
条 记录 在 聚 篮 索 引 中 的 位 置 将 会 发 生 改 变 ， 比 如 你 将 记录 的 主键 值 从 1 更 新 为 10000， 如 果 还 有 非常 多 的 记录 的 主 
键 值 分 布 在 1 ”10000 之 间 的 话 ， 那 么 这 两 条 记录 在 聚 簇 索引 中 就 有 可 能 离 得 非常 远 ， 甚 至 中 间隔 了 好 多 个 页 
面 。 针 对 UPDATE 语句 中 更 新 了 记录 主键 值 的 这 种 情况 ， InnoDB 在 聚 簇 索引 中 分 了 两 步 处 理 : 


。 将 旧 记 录 进 行 delete mark 操作 


高 能 注意 : 这 里 是 delete mark 操 作 ! 这 里 是 delete mark 操 作 ! 这 里 是 delete mark 操 作 ! 也 就 是 说 在 UPDATE 
语句 所 在 的 事务 提交 前 ， 对 旧 记录 只 做 一 个 delete mark 操作 ， 在 事务 提交 后 才 由 专门 的 线程 做 purge 操 
作 ， 把 它 加 入 到 垃圾 链表 中 。 这 里 一 定 要 和 我 们 上 边 所 说 的 在 不 更 新 记录 主键 值 时 ， 先 真正 删除 上 日 记录， 再 
插入 新 记录 的 方式 区 分 开 ! 





小 贴 士 : 
之 所 以 只 对 旧 记 录 做 delete mark 操 作 ， 是 因为 别 的 事务 同时 也 可 能 访问 这 条 记录 ， 如 果 把 它 真 
正 的 删除 加 入 到 垃圾 链表 后 ， 别 的 事务 就 访问 不 到 了 。 这 个 功能 就 是 所 谓 的 MVCC， 我 们 后 边 的 章节 
中 会 详细 啼 叫 什么 是 个 MVCC。 


根据 更 新 后 各 列 的 值 创建 一 条 新 记录 ， 并 将 其 插入 到 聚 艇 索引 中 ( 需 重新 定位 插入 的 位 置 ) 。 


由 于 更 新 后 的 记录 主键 值 发 生 了 改变 ， 所 以 需要 重新 从 聚 篮 索引 中 定位 这 条 记录 所 在 的 位 置 ， 然 后 把 它 插 进 
去 。 


针对 UPDATE 语句 更 新 记录 主键 值 的 这 种 情况 ， 在 对 该 记录 进行 delete mark 操作 前 ， 会 记录 一 条 类 型 为 
TRX_UNDO_DEL MARK_REC 的 undo 日 志 ; 之 后 插入 新 记录 时 ， 会 记录 一 条 类 型 为 TRX_UNDO_INSERT_REC 的 undo 
日 志 ， 也 就 是 说 每 对 一 条 记录 的 主键 值 做 改动 时 ， 会 记录 2 条 undo 日 志 。 这 些 日 志 的 格式 我 们 上 边 都 史 明 过 
了 ， 就 不 歼 述 了 。 

小 贴 士 : 
其 实 还 有 一 种 称 为 TRX UNDO_UPD DEL _REC 的 undo 日 志 的 类 型 我 们 没有 介绍 ， 主 要 是 想 避 免 引 入 过 多 的 复 
林 度 ， 如 果 大 家 对 这 种 类 型 的 undo 日 志 的 使 用 感 兴趣 的 话 ， 可 以 额外 查 一 下 别 的 资料 。 






















































































23 第 23 章 后 悔 了 怎么 办 -undo 日 志 (下 ) 


标签 : MySQL 是 怎样 运行 的 


上 一 章 我 们 主要 路 明 了 为 什么 需要 undo 日 志 ， 以 及 INSERT 、 DELETE 、 UPDATE 这 些 会 对 数据 做 改动 的 语句 者 
会 产生 什么 类 型 的 undo 日 志 ， 还 有 不 同类 型 的 undo 日 志 的 具体 格式 是 什么 。 本 章 会 继续 踪 叮 这 些 undo 日 志 会 
被 具体 写 到 什么 地 方 ， 以 及 在 写 入 过 程 中 需要 注意 的 一 些 问题 。 

23.1 通用 链表 结构 


在 写 入 undo 日 志 的 过 程 中 会 使 用 到 多 个 链表 ， 很 多 链表 都 有 同样 的 节点 结构 ， 如 图 所 示 : 



































List Node 结构 示意 图 


Prev Node Page Number (4 字 节 ) 


这 两 个 字段 相当 于 
指向 前 一 个 节点 的 指针 
Prev Node Offset (2 字 节 ) 
总 共 是 12 字 节 
Nd Nelo [WTel- NI CD) 这 两 个 字段 相当 于 
指向 后 一 个 节点 的 指针 


Next Node Offset (2 字 节 ) 





在 某 个 表 空间 内 ， 我 们 可 以 通过 一 个 页 的 页 号 和 在 页 内 的 偏 移 量 来 唯一 定位 一 个 节点 的 位 置 ， 这 两 个 信息 也 就 相 
当 于 指向 这 个 节点 的 一 个 指针 。 所 以 : 


。 Pre Node Page Number 和 Pre Node 0ffset 的 组 合 就 是 指向 前 一 个 节点 的 指针 
。 Next Node Page Number 和 Next Node 0ffset 的 组 合 就 是 指向 后 一 个 节点 的 指针 。 


整个 List Node 占用 12 个 字 节 的 存储 空间 。 


为 了 更 好 的 管理 链表 ， 设 计 InnoDB 的 大 叔 还 提出 了 一 个 基 节 点 的 结构 ， 里 边 存储 了 这 个 链表 的 头 节点 、 尾 节 
点 以 及 链表 长 度 信息 ， 基 节点 的 结构 示意 图 如 下 : 


List Base Node 结构 示意 图 


List Length(4 字 节 ) 


First Node Page Number (4 字 节 ) 这 两 个 字段 是 指向 
是 16 字 市 First Node Offset (2 字 节 ) 


Last Node Page Number (4 字 节 ) 


这 两 个 字段 是 指向 


链表 尾 节 点 的 指针 
Last Node Offset (2 字 节 ) 





其 中 : 


。 List Length 表明 该 链表 一 共有 多 少 节点 。 
。 First Node Page Number 和 First Node 0ffset 的 组 合 就 是 指向 链表 头 节 点 的 指针 。 
。 Last Node Page Number 和 Last Node 0ffset 的 组 合 就 是 指向 链表 尾 节 点 的 指针 。 


整个 List Base Node 占用 16 个 字 节 的 存储 空间 。 


所 以 使 用 List Base Node 和 List Node 这 两 个 结构 组 成 的 链表 的 示意 图 就 是 这 样 : 







这 个 是 List Node 结 构 






这 个 是 List Base Node 结 构 


小 贴 士 : 
上 述 链表 结构 我 们 在 前 边 的 文章 中 频频 提 到 ， 尤 其 是 在 表 空间 那 一 章 重 点 描述 过 ， 不 过 我 不 敢 奢 求 大 家 
都 记 住 了 ， 所 以 在 这 里 又 强调 一 这， 希望 大 家 不 要 嫌 我 烦 ， 我 只 是 怕 大 家 忘 了 学 习 后 续 内 容 吃 力 而 已 ~ 

















23.2 FIL_ PAGE_UNDO_LOG 页 面 


我 们 前 边 踪 嘱 表 空 间 的 时 候 说 过 ， 表 空间 其 实 是 由 许 许多 多 的 页 面 构 成 的 ， 页 面 默 认 大 小 为 16KB 。 这 些 页 面 有 
不 同 的 类 型 ， 比 如 类 型 为 FIL PAGE INDEX 的 页 面 用 于 存储 聚 簇 索 引 以 及 二 级 索引 ， 类 型 为 
FIL_PAGE_TYPE_FSP_HDR 的 页 面 用 于 存储 表 空 间 头 部 信息 的 ， 还 有 其 他 各 种 类 型 的 页 面 ， 其 中 有 一 种 称 之 为 
FIL_PAGE_UNDO_L0G 类 型 的 页 面 是 专门 用 来 存储 undo 日 志 的 ， 这 种 类 型 的 页 面 的 通用 结构 如 下 图 所 示 (以 默认 
的 16KB 大 小 为 例 ) : 





FIL PAGE UNDO_LOG 页 通用 结构 示意 图 


38 字 节 File Header 
18 字 节 Blnle lo te [elle[s] 


此 处 用 于 存放 真正 的 undo 日 志 


总 共 是 16KB 以 及 一 些 其 他 的 东 东 





16376B 
8 字 节 -| File Trailer 
16KB 


“类 型 为 FIL_PAGE_UND0_L06G 的 页 "这 种 说 法 太 绕 口 ， 以 后 我 们 就 简称 为 Undo 页 面 了 哈 。 上 图 中 的 File Header 
和 File Trailer 是 各 种 页 面 都 有 的 通用 结构 ， 我 们 前 边 踪 叮 过 很 多 遍 了 ， 这 里 就 不 歼 述 了 (忘记 了 的 可 以 到 讲 
述 数据 页 结构 或 者 表 空 间 的 章节 中 查看 ) 。 Undo Page Header 是 Undo 页 面 所 特有 的 ,我 们 来 看 一 下 它 的 结构 : 


Undo Page Header 结 构 示 意图 
38 B 

TRX_UNDO_PAGE TYPE | 
TRX_UNDO_PAGE_ START 
TRX_UNDO_PAGE_FREE 


40 B 


42B 


34B 


ND NIGD 





38 B 


其 中 各 个 属性 的 意思 如 下 : 
。 TRX_UNDO_PAGE_TYPE : 本 页 面 准备 存储 什么 种 类 的 undo 日 志 。 


我 们 前 边 介绍 了 好 几 种 类 型 的 undo 日 志 ， 它 们 可 以 被 分 为 两 个 大 类 : 

" TRX_UNDO_INSERT (使 用 十 进 制 1 表示 ) : 类 型 为 TRX_UNDO_INSERT_REC 的 undo 日 志 属于 此 大 类 ， 一 
般 由 INSERT 语句 产生 ,或 者 在 UPDATE 语句 中 有 更 新 主键 的 情况 也 会 产生 此 类 型 的 undo 日 志 。 
TRX_UNDO_UPDATE (使 用 十 进 制 2 表示 ) ， 除 了 类 型 为 TRX_UNDO_INSERT_REC 的 undo 日 志 ， 其 他 类 型 
的 undo 日 志 都 属于 这 个 大 类 ， 比 如 我 们 前 边 说 的 TRX_UNDO_DEL MARK_REC 、 
TRX_UNDO_UPD_EXIST_REC 哈 的 ,一般 由 DELETE 、 UPDATE 语句 产生 的 undo 日 志 属于 这 个 大 类 。 











这 个 TRX_UND0 PAGE_TYPE 属性 可 选 的 值 就 是 上 边 的 两 个 ， 用 来 标记 本 页 面 用 于 存储 哪个 大 类 的 undo 日 
志 ， 不同 大 类 的 undo 日 志 不 能 混 着 存储 ， 比 如 一 个 Undo 页 面 的 TRX_UNDO_PAGE_TYPE 属性 值 为 
TRX_UNDO_INSERT ， 那 么 这 个 页 面 就 只 能 存储 类 型 为 TRX_UNDO_INSERT_REC 的 undo 日 志 ， 其 他 类 型 
的 undo 日 志 就 不 能 放 到 这 个 页 面 中 了 。 





小 贴 士 : 

之 所 以 把 undo 日 志 分 成 两 个 大 类 ， 是 因为 类 型 为 TRX UNDO INSERT _ REC 的 undo 日 志 在 事务 提交 
后 可 以 直接 删除 掉 ， 而 其 他 类 型 的 undo 日 志 还 需要 为 所 谓 的 MVCC 服 务 ， 不 能 直接 删除 掉 ， 对 它 
们 的 处 理 需 要 区 别 对 待 。 当 然 ， 如 果 你 看 这 段 话 迷 迷糊 糊 的 话 ， 那 就 不 需要 再 看 一 遍 了 ， 现 在 
只 需要 知道 undo 日 志 分 为 2 个 大 类 就 好 了 ， 更 详细 的 东西 我 们 后 边 会 仔细 啼 嘱 的 。 






































。 TRX_UNDO_PAGE_START : 表示 在 当前 页 面 中 是 从 什么 位 置 开始 存储 undo 日 志 的 ,或 者 说 表示 第 一 条 undo 日 


志 在 本 页 面 中 的 起 始 偏 移 量 。 
TRX_UNDO_PAGE FREE : 与 上 边 的 TRX_UNDO_PAGE_START 对 应 ， 表 示 当 前 页 面 中 存储 的 最 后 一 条 undo 日 志 


结束 时 的 偏 移 量 ， 或 者 说 从 这 个 位 置 开 始 ， 可 以 继续 写 入 新 的 undo 日 志 。 


假设 现在 向 页 面 中 写 入 了 3 条 undo 日 志 ， 那 么 TRX_UNDO_PAGE _ START 和 TRX_UNDO _PAGE FREE 的 示意 图 就 是 
这 样 : 













这 个 是 TRX_UNDO_PAGE_START 
代表 的 位 置 


这 个 是 TRX_UNDO_PAGE_FREE 
代表 的 位 置 





当然 ， 在 最 初 一 条 undo 日 志 也 没 写 入 的 情况 下 ， TRX_UND0_PAGE START 和 TRX_UNDO_PAGE FREE 的 值 是 相 
同 的 。 
。 TRX_UNDO_ PAGE NODE : 代表 一 个 List Node 结构 (链表 的 普通 节点 ， 我 们 上 边 刚 说 的 ) 。 


下 边 马上 用 到 这 个 属性 ， 稍 安 勿 躁 。 
23.3 Undo 页 面 链表 
23.3.1 单个 事务 中 的 Undo 页 面 链表 
因为 一 个 事务 可 能 包含 多 个 语句 ， 而 且 一 个 语句 可 能 对 若干 条 记录 进行 改动 ， 而 对 每 条 记录 进行 改动 前 ， 都 需要 
记录 1 条 或 2 条 的 undo 日 志 ， 所 以 在 一 个 事务 执行 过 程 中 可 能 产生 很 多 undo 日 志 ， 这 些 日 志 可 能 一 个 页 面 放 不 
下 ， 需 要 放 到 多 个 页 面 中 ， 这 些 页 面 就 通过 我 们 上 边 介绍 的 TRX_UNDO_PAGE_NODE 属性 连 成 了 链表 : 


FIL_ PAGE_UNDO_LOG 页 FIL PAGE_UNDO_LOG 页 FIL PAGE_UNDO_LOG 页 FIL PAGE_UNDO_LOG 页 





我 们 把 链表 中 的 第 一 个 页 面 称 之 为 我 们 把 链表 中 其 他 页 面 称 之 为 : 
first undo page normal undo page 


大 家 往 上 再 旺 一 具 上 边 的 图 ， 我 们 特意 把 链表 中 的 第 一 个 Undo 页 面 给 标 了 出 来 ， 称 它 为 first undo page ， 其 
余 的 Undo 页 面 称 之 为 normal undo page ， 这 是 因为 在 first undo page 中 除了 记录 Undo Page Header 之 外 ， 
还 会 记录 其 他 的 一 些 管理 信息 ， 这 个 我 们 稍 后 再 说 哈 。 


在 一 个 事务 执行 过 程 中 ， 可 能 混 着 执行 INSERT 、 DELETE 、 UPDATE 语句 ， 也 就 意味 着 会 产生 不 同类 型 的 undo 
日 志 。 但 是 我 们 前 边 又 强调 过 ， 同 一 个 Undo 页 面 要 么 只 存储 TRX_UNDO_INSERT 大 类 的 undo 日 志 ， 要 么 只 存储 
TRX_UNDO_UPDATE 大 类 的 undo 日 志 ， 反 正 不 能 混 着 存 ， 所 以 在 一 个 事务 执行 过 程 中 就 可 能 需要 2 个 Undo 页 面 的 
链表 ， 一 个 称 之 为 insert undo 链 表 ， 另 一 个 称 之 为 update undo 链 表 ， 画 个 示意 图 就 是 这 样 : 


FIL PAGE_UNDO_LOG 页 FIL_ PAGE_UNDO_LOG 页 FIL_ PAGE UNDO_LOG 页 FIL PAGE UNDO_LOG 页 


FIL PAGE_UNDO _ LOG 页 FIL_PAGE_UNDO LOG 页 FIL_ PAGE UNDO_LOG 页 FIL PAGE UNDO_LOG 页 


另外 ， 设 计 InnoDB 的 大 相 规 定 对 普通 表 和 | 临时 表 的 记录 改动 时 产生 的 undo 日 志 要 分 别 记录 (我 们 稍 后 阐释 为 哈 
这 么 做 ) ， 所 以 在 一 个 事务 中 最 多 有 4 个 以 Undo 页 面 为 节点 组 成 的 链表 : 


普通 表 的 undo 日 志 : 


临时 表 的 undo 日 志 : 








RL PAGE UNDO LOG 页 FIL PAGE UNDO LOG 页 FILPAGE UNDO LOG 页 FL_PAGE UNDO LOG 页 


| PR 
insert undo 链 表 : nn 


FIL_PAGE UNDO LOG 页 FIL_ PAGE UNDO LOG 页 FILPAGE UNDO LOG 页 RIL PAGE UNDO_ LOG 页 


RL PAGE UNDO LOG 页 FIL_ PAGE UNDO LOG 页 FLPAGE UNDO LOG 页 FIL_.PAGE UNDO LOG 页 


| 一 一 | 
insert undo 链 表 : 本 








RIL PAGE UNDO _ LOG 页 FIL PAGE UNDO LOG 页 PRIL PAGE UNDO LOG 页 RIL_ PAGE UNDO_ LOG 页 


当然 ， 并 不 是 在 事务 一 开始 就 会 为 这 个 事务 分 配 这 4 个 链表 ， 具 体 分 配 策略 如 下 : 


刚刚 开启 事务 时 ， 一 个 Undo 页 面 链表 也 不 分 配 。 
当 事 务 执行 过 程 中 向 普通 表 中 插入 记录 或 者 执行 更 新 记录 主键 的 操作 之 后 ， 就 会 为 其 分 配 一 个 普通 表 的 


insert undo 链 表 。 
当 事 务 执行 过 程 中 删除 或 者 更 新 了 普通 表 中 的 记录 之 后 ， 就 会 为 其 分 配 一 个 普通 表 的 update undo 链 表 。 


当 事 务 执行 过 程 中 向 临时 表 中 插入 记录 或 者 执行 更 新 记录 主键 的 操作 之 后 ， 就 会 为 其 分 配 一 个 临时 表 的 


insert undo 链 表 。 
。 当 事 务 执行 过 程 中 删除 或 者 更 新 了 | 临时 表 中 的 记录 之 后 ， 就 会 为 其 分 配 一 个 临时 表 的 update undo 链 表 。 


总 结 一 句 就 是 : 按 需 分 配 ， 哈 时候 需要 啥 时 候 再 分 配 ， 不 需要 就 不 分 配 。 


23.3.2 多 个 事务 中 的 Undo 页 面 链表 
为 了 尽 可 能 提高 undo 日 志 的 写 入 效率 ， 不 同事 务 执行 过 程 中 产生 的 undo 日 志 需 要 被 写 入 到 不 同 的 Undo 页 面 链表 


中 。 比 方 说 现在 有 事务 id 分 别 为 1 、 


行 过 程 中 : 


2 的 两 个 事务 ， 我 们 分 别称 之 为 trx 1 和 trx 2 ， 假 设 在 这 两 个 事务 执 


。 trx 1 对 普通 表 做 了 DELETE 操作 ， 对 临时 表 做 了 INSERT 和 UPDATE 操作 。 


InnoDB 会 为 trx 1 分 配 3 个 链表 ， 分 别 是 : 
= 针对 普通 表 的 update undo 链 表 
a 针对 上 临时 表 的 insert undo 链 表 
= 针对 临时 表 的 update undo 链 表 。 

。 trx 2 对 普通 表 做 了 INSERT 、 UPDATE 和 DELETE 操作 ,没有 对 临时 表 做 改动 。 


InnoDB 会 为 trx 2 分 配 2 个 链表 ， 分 别 是 : 
。 针对 普通 表 的 insert undo 链 表 
= 针对 普通 表 的 update undo 链 表 。 











综 上 所 述 , 在 trx 1 和 trx 2 执行 过 程 中 ， InnoDB 共 需 为 这 两 个 事务 分 配 5 个 Undo 页 面 链表 ， 画 个 图 就 是 这 
样 : 




















& 


re f 图 一 本 一 本 一 … 一 硬 
临时 表 的 insert undo 链 表 : nnn 


如 果 有 更 多 的 事务 ， 那 就 意味 着 可 能 会 产生 更 多 的 Undo 页 面 链表 。 


23.4 undo 日 志 具 体 写 入 过 程 


23.4.1 段 (Segment) 的 概念 


如 果 你 有 认真 看 过 表 空间 那 一 章 的 话 ， 对 这 个 段 的 概念 应 该 印象 深刻 ， 我 们 当时 花 了 非常 大 的 篇 幅 来 踪 轨 这 个 
概念 。 简 单 讲 ， 这 个 段 是 一 个 逻辑 上 的 概念 ， 本 质 上 是 由 若干 个 零散 页 面 和 若干 个 完整 的 区 组 成 的 。 比 如 一 个 
B+ 树 索 引 被 划分 成 两 个 段 ， 一 个 叶子 节点 段 ， 一 个 非 叶子 节点 段 ， 这 样 叶 子 节点 就 可 以 被 尽 可 能 的 存 到 一 起 ， 
非 叶 子 节点 被 尽 可 能 的 存 到 一 起 。 每 一 个 段 对 应 一 个 INODE Entry 结构 ， 这 个 INODE Entry 结构 描述 了 这 个 段 的 
各 种 信息 ， 比 如 段 的 ID ， 段 内 的 各 种 链表 基 节 点 ， 零 散 页 面 的 页 号 有 哪些 等 信息 (具体 该 结构 中 每 个 属性 的 意 
思 大 家 可 以 到 表 空间 那 一 章 里 再 次 重 温 一 下 ) 。 我 们 前 边 也 说 过 ， 为 了 定位 一 个 INODE Entry ， 设 计 InnoDB 的 
大 叔 设计 了 一 个 Segment Header 的 结构 : 



























trx 2 的 Undo 页 面 链 表 























Segment Header 结构 


Space ID ofthe INODE Entry (4 字 节 ) 


Page Number of the INODE AC ES) 


Byte Offset of the INODE Entry (2 字 节 ) 





整个 Segment Header 占用 10 个 字 节 大 小 ， 各 个 属性 的 意思 如 下 : 


。 Space ID of the INODE Entry : INODE Entry 结构 所 在 的 表 空 间 ID。 
。 Page Number of the INODE Entry : INODE Entry 结构 所 在 的 页 面 页 号 。 
。 Byte 0ffset of the INODE Ent : INODE Entry 结构 在 该 页 面 中 的 偏 移 量 


知道 了 表 空 间 ID、 页 号 、 页 内 偏 移 量 ， 不 就 可 以 唯一 定位 一 个 INODE Entry 的 地 址 了 么 ~ 


小 贴 士 : 
这 部 分 关于 段 的 各 种 概念 我 们 在 表 空 间 那 一 章 中 都 有 详细 解释 ， 在 这 里 重 提 一 下 只 是 为 了 唤醒 大 家 沉睡 
的 记忆 ， 如 果 有 任何 不 清楚 的 地 方 可 以 再 次 跳 回 表 空 间 的 那 一 章 仔 细 读 一 下 。 


23.4.2 Undo Log Segment Header 


设计 InnoDB 的 大 叔 规定 ， 每 一 个 Undo 页 面 链表 都 对 应 着 一 个 段 ， 称 之 为 Undo Log Segment 。 也 就 是 说 链表 
中 的 页 面 都 是 从 这 个 段 里 边 申请 的 ， 所 以 他 们 在 Undo 页 面 链表 的 第 一 个 页 面 ， 也 就 是 上 边 提 到 的 first undo 
page 中 设计 了 一 个 称 之 为 Undo Log Segment Header 的 部 分 ， 这 个 部 分 中 包含 了 该 链表 对 应 的 段 的 segment 
header 信息 以 及 其 他 的 一 些 关于 这 个 段 的 信息 ， 所 以 Undo 页 面 链表 的 第 一 个 页 面 其 实 长 这 样 : 


first undo page 结 构 示 意图 


File Header 


VlnloloM Kole STsTe [ne :le [sl 


总 共 是 16KB 


此 处 用 于 存放 真正 的 undo 日 志 
以 及 一 些 其 他 的 东 东 





可 以 看 到 这 个 Undo 链表 的 第 一 个 页 面 比 普 通 页 面 多 了 个 Undo Log Segment Header ， 我 们 来 看 一 下 它 的 结构 : 


Undo Log Segment Header 结 构 
TRX_UNDO_STATE 


TRX_UNDO_LAST_LOG 


TRX_UNDO_FSEG_HEADER 


TRX_UNDCO_PAGCE_LIST 





其 中 各 个 属性 的 意思 如 下 : 


。 TRX UNDO STATE : 本 Undo 页 面 链表 处 在 什么 状态 。 




















一 个 Undo Log Segment 可 能 处 在 的 状态 包括 : 


m= TRX U 
mn TRX U 
m= TRX U 


D0_ACTIVE : 活跃 状态 ， 也 就 是 一 个 活跃 的 事务 正在 往 这 个 段 里 边 写 入 undo 日 志 。 
DO0_CACHED : 被 缓存 的 状态 。 处 在 该 状态 的 Undo 页 面 链表 等 待 着 之 后 被 其 他 事务 重用 。 
DO_TO_FREE : 对 于 insert undo 链表 来 说 ， 如 果 在 它 对 应 的 事务 提交 之 后 ， 该 链表 不 能 被 重 





用 ， 那 么 就 会 处 于 这 种 状态 。 


mn TRX U 


D0_ TO_PURGE : 对 于 update undo 链表 来 说 ， 如 果 在 它 对 应 的 事务 提交 之 后 ， 该 链表 不 能 被 重 


用 ， 那 么 就 会 处 于 这 种 状态 。 


mn TRX U 


小 贴 士 : 














DO _PREPARED : 包含 处 于 PREPARE 阶段 的 事务 产生 的 undo 日 志 。 











Undo 页 面 链表 什么 时 候 会 被 重用 ， 怎 么 重用 我 们 之 后 会 详细 说 的 。 事 务 的 PREPARE 阶 段 是 在 所 
谓 的 分 布 式 事务 中 才 出 现 的 ， 本 书 中 不 会 介绍 更 多 关于 分 布 式 事务 的 事情 ， 所 以 大 家 目前 忽略 
这 个 状态 就 好 了 。 









































。 TRX_UNDO_LAST_L0G : 本 Undo 页 面 链表 中 最 后 一 个 Undo Log Header 的 位 置 。 


小 贴 士 : 











关于 什么 是 Undo Log Header， 我 们 稍 后 马上 介绍 哈 。 











。 TRX_UNDO_FSEG HEADER : 本 Undo 页 面 链表 对 应 的 段 的 Segment Header 信息 (就 是 我 们 上 一 节 介 绍 的 那个 
10 字 节 结 构 ， 通 过 这 个 信息 可 以 找到 该 段 对 应 的 INODE Entry ) 。 
。 TRX UNDO PAGE LIST : Undo 页面 链表 的 基 节 点 。 


我 们 上 边 说 Undo 页 面 的 Undo Page Header 部 分 有 一 个 12 字 节 大 小 的 TRX_UNDO_PAGE_NODE 属性 ， 这 个 属性 
代表 一 个 List Node 结构 。 每 一 个 Undo 页 面 都 包含 Undo Page Header 结构 ， 这 些 页 面 就 可 以 通过 这 个 属 
性 连 成 一 个 链表 。 这 个 TRX_UNDO_PAGE_LIST 属性 代表 着 这 个 链表 的 基 节 点 ， 当 然 这 个 基 节 点 只 存在 于 Undo 
页 面 链表 的 第 一 个 页 面 ， 也 就 是 first undo page 中 。 


23.4.3 Undo Log Header 
一 个 事务 在 向 Undo 页 面 中 写 入 undo 日 志 时 的 方式 是 十 分 简单 暴力 的 ， 就 是 直接 往 里 匀 ， 写 完 一 条 紧 接着 写 另 一 


条 ， 各 条 undo 


丰 :， 三 厅 























志 之 间 是 亲密 无 间 的 。 写 完 一 个 Undo 页 面 后 ， 再 从 段 里 申请 一 个 新 页 面 ， 然 后 把 这 个 页 面 插入 


到 Undo 页 面 链表 中 ， 继 续 往 这 个 新 申请 的 页 面 中 写 。 设 计 InnoDB 的 大 叔 认为 同一 个 事务 向 一 个 Undo 页 面 链表 














中 写 入 的 undo 





组 的 undo 日 








和 


4 


1 





志 算是 一 个 组 ， 比 方 说 我 们 上 边 介绍 的 trx 1 由 于 会 分 配 3 个 Undo 页 面 链表 ， 也 就 会 写 入 3 个 
trx 2 由 于 会 分 配 2 个 Undo 页 面 链表 ， 也 就 会 写 入 2 个 组 的 undo 日 志 。 在 每 写 入 一 组 undo 日 




















志 时 ， 都 会 在 这 组 undo 日 志 前 先 记 录 一 下 关于 这 个 组 的 一 些 属性 ， 设 计 InnoDB 的 大 叔 把 存储 这 些 属 性 的 地 方 





称 之 为 Undo Log Header 。 所 以 Undo 页 面 链表 的 第 一 个 页 面 在 真正 写 入 undo 日 志 前 ， 其 实 都 会 被 填充 Undo 


Page Header 、 


Undo Log Segment Header 、 Undo Log Header 这 3 个 部 分 ， 如 图 所 示 : 


38 字 节 

38 B 
18 字 节 

S6 B 
30 字 节 

86B 
186 字 节 


272B 
总 共 是 16KB 


8 字 节 和 16376 B 


16 KB 


这 个 Undo Log Header 具体 的 结构 如 下 : 


first undo page 结 构 示意 图 


File Header 


Undo Page Header 


Undo Log Segment Header 


Undo Log Header 





File Trailer 


此 处 用 于 存放 真正 的 undo 日 志 


Undo Log Header 结 构 


TRX_UNDO_TRX_ID 


TRX_UNDO_TRX_NO 


TRX_UNDO_DEL_MARKs 
TRX_UNDO_LOG_ START 
TRX_UNDO _XID_EXISTS 

TRX_UNDO_DICT_TRANs 


TRX_UNDO_NEXT_LOG 
TRX_UNDO_PREV_LOG 


TRX_UNDO_HISTORY_NODE 


XID 信 息 





| 
| 
TRX_UNDO_TABLE_ID | 
| 


哇 喇 ， 映 入 眼帘 的 又 是 一 大 坨 属性 ， 我 们 先 大 致 看 一 下 它们 都 是 哈 意 思 : 
。 TRX_UNDO_TRX_ID : 生成 本 组 undo 日 志 的 事务 id 。 


。 TRX_UNDO_TRX_N0 : 事务 提交 后 生成 的 一 个 需要 序号 ， 使 用 此 序号 来 标记 事务 的 提交 顺序 ( 先 提交 的 此 序号 
小 ， 后 提交 的 此 序号 大 ) 。 


。 TRX UNDO DEL MARKS : 标记 本 组 undo 日 志 中 是 否 包 含 由 于 Delete mark 操作 产生 的 undo 日 志 。 
。 TRX _UNDO L0G START : 表示 本 组 undo 日 志 中 第 一 条 undo 日 志 的 在 页 面 中 的 偏 移 量 。 
。 TRX_UNDO XID EXISTS : 本 组 undo 日 志 是 否 包 含 XID 信 息 。 





小 贴 士 : 
本 书 不 会 讲述 更 多 关于 XID 是 个 什么 东 东 ， 有 兴趣 的 同学 可 以 到 搜索 引擎 或 者 文档 中 搜 一 搜 哈 。 


。 TRX UNDO _DICT_TRANS : 标记 本 组 undo 日 志 是 不 是 由 DDL 语 句 产生 的 。 

。 TRX UNDO_TABLE ID : 如 果 TRX_UNDO_DICT_TRANS 为 真 ， 那 么 本 属性 表示 DDL 语 句 操作 的 表 的 table id 。 
。 TRX_UNDO_NEXT_L0G : 下 一 组 的 undo 日 志 在 页 面 中 开始 的 偏 移 量 。 

。 TRX_UNDO_PREV_L0G : 上 一 组 的 undo 日 志 在 页 面 中 开始 的 偏 移 量 。 


小 贴 士 : 

一 般 来 说 一 个 Undo 页 面 链表 只 存储 一 个 事务 执行 过 程 中 产生 的 一 组 undo 日 志 ， 但 是 在 某 些 情况 
下 ， 可 能 会 在 一 个 事务 提交 之 后 ， 之 后 开启 的 事务 重复 利用 这 个 Undo 页 面 链表 ， 这 样 就 会 导致 一 个 
Undo 页 面 中 可 能 存放 多 组 Undo 日 志 ，TRX_UNDO_NEXT LOG 和 TRX_UNDO _PREV_L0G 就 是 用 来 标记 下 一 组 
和 上 一 组 undo 日 志 在 页 面 中 的 偏 移 量 的 。 关 于 什么 时 候 重 用 Undo 页 面 链表 ， 怎 么 重用 这 个 链表 我 们 
稍 后 会 详细 说 明 的 ， 现 在 先 理解 TRX_UNDO_NEXT_LOG 和 TRX_UNDO_PREV_L0G 这 两 个 属性 的 意思 就 好 

















Ts 
。 TRX UNDO HISTORY NODE : 一 个 12 字 节 的 List Node 结构 ， 代 表 一 个 称 之 为 History 链表 的 节点 。 
小 贴 士 : 


关于 History 链 表 我 们 后 边 会 格外 详细 的 踪 明 ， 现 在 先 不 用 管 哈 。 


23.4.4 小 结 


对 于 没有 被 重用 的 Undo 页 面 链表 来 说 ， 链 表 的 第 一 个 页 面 ， 也 就 是 first undo page 在 真正 写 入 undo 日 志 
前 ,会 填充 Undo Page Header 、 Undo Log Segment Header 、 Undo Log Header 这 3 个 部 分 ， 之 后 才 开始 正式 
写 入 undo 日 志 。 对 于 其 他 的 页 面 来 说 ， 也 就 是 normal undo page 在 真正 写 入 undo 日 志 前 ， 只 会 填充 Undo 
Page Header 。 链 表 的 List Base Node 存放 到 first undo page 的 Undo Log Segment Header 部 分 ， List 
Node 信息 存放 到 每 一 个 Undo 页 面 的 undo Page Header 部 分 ， 所 以 画 一 个 Undo 页 面 链表 的 示意 图 就 是 这 样 : 





undo 页 面 链 表示 意图 


Pile Header File Header File Header File Header 
Undo Page Header Undo Page Header Undo Page Header Undo Page Header 
Undo Log Segment Header 


Undo Log Header 


真正 的 undo 日 志 真正 的 undo 日 志 


File Trailer File Trailer File Trailer File Trailer 





first undo page normal undo page 


23.5 重用 Undo 页 面 


我 们 前 边 说 为 了 能 提高 并 发 执行 的 多 个 事务 写 入 undo 日 志 的 性 能 ， 设 计 InnoDB 的 大 叔 决定 为 每 个 事务 单独 分 配 
相应 的 Undo 页 面 链表 (最 多 可 能 单独 分 配 4 个 链表 ) 。 但 是 这 样 也 造成 了 一 些 问题 ， 比 如 其 实 大 部 分 事务 执行 过 
程 中 可 能 只 修改 了 一 条 或 几 条 记录 ， 针 对 某 个 Undo 页 面 链表 只 产生 了 非常 少 的 undo 日 志 ， 这 些 undo 日 志 可 能 
只 占用 一 丢 丢 存储 空间 ， 每 开启 一 个 事务 就 新 创建 一 个 Undo 页 面 链表 (虽然 这 个 链表 中 只 有 一 个 页 面 ) 来 存储 
这 么 一 丢 委 undo 日 志 则 不 是 太 浪费 了 么 ”的 确 是 挺 浪 费 ， 于 是 设计 InnoDB 的 大 叔 本 着 勤俭 节约 的 优良 传统 ， 决 
定 在 事务 提交 后 在 某 些 情况 下 重用 该 事务 的 Undo 页 面 链表 。 一 个 Undo 页 面 链表 是 否 可 以 被 重用 的 条 件 很 简单 : 


。 该 链表 中 只 包含 一 个 Undo 页 面 。 


如 果 一 个 事务 执行 过 程 中 产生 了 非常 多 的 undo 日 志 ， 那 么 它 可 能 申请 非常 多 的 页 面 加 入 到 Undo 页 面 链表 
中 。 在 该 事物 提交 后 ， 如 果 将 整个 链表 中 的 页 面 都 重用 ， 那 就 意味 着 即使 新 的 事务 并 没有 向 该 Undo 页 面 链 
表 中 写 入 很 多 undo 日 志 ， 那 该 链表 中 也 得 维护 非常 多 的 页 面 ， 那 些 用 不 到 的 页 面 也 不 能 被 别 的 事务 所 使 
用 ， 这样 就 造成 了 另 一 种 浪费 。 所 以 设计 InnoDB 的 大 叔 们 规定 ， 只 有 在 Undo 页 面 链表 中 只 包含 一 个 Undo 
页 面 时 ， 该 链表 才 可 以 被 下 一 个 事务 所 重用 。 








。 该 Undo 页 面 已 经 使 用 的 空间 小 于 整个 页 面 空间 的 3/4。 


我 们 前 边 说 过 ， Undo 页 面 链表 按照 存储 的 undo 日 志 所 属 的 大 类 可 以 被 分 为 insert undo 链 表 和 update undo 
链表 两 种 ， 这 两 种 链表 在 被 重用 时 的 策略 也 是 不 同 的， 我 们 分 别 看 一 下 : 


。 insert undo 链 表 


insert undo 链 表 中 只 存储 类 型 为 TRX_UNDO_INSERT_REC 的 undo 日 志 ， 这 种 类 型 的 undo 日 志 在 事务 提交 
之 后 就 没 用 了 ， 就 可 以 被 清除 掉 。 所 以 在 某 个 事务 提交 后 ， 重 用 这 个 事务 的 insert undo 链 表 (这 个 链表 中 
只 有 一 个 页 面 ) 时 ， 可 以 直接 把 之 前 事务 写 入 的 一 组 undo 日 志 覆盖 掉 ， 从 头 开始 写 入 新 事务 的 一 组 undo 日 
志 ， 如 下 图 所 示 : 


first undo page 意 图 first undo page 意 图 


File Header File Header 


Undo Page Header Undo Page Header 


Undo Log Segment Header Undo Log Segment Header 
重用 insert undo 链 表 ， 


Undo Log Header 直接 将 旧 的 undo 日 志 履 盖 掉 Undo Log Header 


old undo 1 = new undo 1 
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File Trailer File Trailer 


如 图 所 示 ， 假设 有 一 个 事务 使 用 的 insert undo 链 表 ， 到 事务 提交 时 ， 只 向 insert undo 链 表 中 插入 了 3 条 
undo 日 志 ， 这 个 insert undo 链 表 只 申请 了 一 个 Undo 页 面 。 假 设 此 刻 该 页 面 已 使 用 的 空间 小 于 整个 页 面 
大 小 的 3/4， 那 么 下 一 个 事务 就 可 以 重用 这 个 insert undo 链 表 (链表 中 只 有 一 个 页 面 ) 。 假 设 此 时 有 一 个 
新 事务 重用 了 该 insert undo 链 表 ， 那 么 可 以 直接 把 旧 的 一 组 undo 日 志 覆盖 掉 ， 写 入 一 组 新 的 undo 日 

< 


MP o 


小 贴 士 : 

当然 ， 在 重用 Undo 页 面 链表 写 入 新 的 一 组 undo 日 志 时 ， 不 仅 会 写 入 新 的 Undo Log Header， 还 会 
适当 调整 Undo Page Header、Undo Log Segment Header、Undo Log Header 中 的 一 些 属性 ， 比 如 TR 
X_UNDO_PAGE_START、TRX_UNDO_PAGE_FREE 等 等 等 等 ， 这 些 我 们 就 不 具体 踪 路 了 。 


update undo 链 表 


在 一 个 事务 提交 后 ， 它 的 update undo 链 表 中 的 undo 日 志 也 不 能 立即 删除 掉 (这 些 日 志 用 于 MVCC， 我 们 
后 边 会 说 的 ) 。 所 以 如 果 之 后 的 事务 想 重用 update undo 链 表 时 ， 就 不 能 覆盖 之 前 事务 写 入 的 undo 日 志 。 
这 样 就 相当 于 在 同一 个 Undo 页 面 中 写 入 了 多 组 的 undo 日 志 ， 效 果 看 起 来 就 是 这 样 : 


first undo page 意 图 


File Header 


Undo Page Header 


Undo Log Segment Header 
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File Trailer 


23.6 回 滚 段 
23.6.1 回 滚 段 的 概念 





first undo page 意 图 


File Header 
Undo Page Header 


Undo Log Segment Header 


重用 update undo 链 表 ， 
保留 旧 的 undo 日 志 
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new undo 1 


File Trailer 





我 们 现在 知道 一 个 事务 在 执行 过 程 中 最 多 可 以 分 配 4 个 Undo 页 面 链表 ， 在 同一 时 刻 不 同 事务 拥有 的 Undo 页 面 链 
表 是 不 一 样 的 ， 所 以 在 同一 时 刻 系 统 里 其 实 可 以 有 许 许多 多 个 Undo 页 面 链表 存在 。 为 了 更 好 的 管理 这 些 链 表 ， 
设计 InnoDB 的 大 叔 又 设计 了 一 个 称 之 为 Rollback Segment Header 的 页 面 ， 在 这 个 页 面 中 存放 了 各 个 Undo 页 
面 链表 的 frist undo page 的 页 号 ， 他 们 把 这 些 页 号 称 之 为 undo slot 。 我 们 可 以 这 样 理解 ， 每 个 Undo 页 
面 链表 都 相当 于 是 一 个 班 ， 这 个 链表 的 first undo page 就 相当 于 这 个 班 的 班长 ， 找 到 了 这 个 班 的 班长 ， 就 可 
以 找到 班 里 的 其 他 同学 (其 他 同学 相当 于 normal undo page ) 。 有 时 候 学 校 需要 向 这 些 班 级 传达 一 下 精神 ， 就 
需要 把 班长 都 召集 在 会 议 室 ， 这 个 Rollback Segment Header 就 相当 于 是 一 个 会 议 室 。 


我 们 看 一 下 这 个 称 之 为 Rollback Segment Header 的 页 面 长 哈 样 (以 默认 的 16KB 为 例 ) : 


Rollback Segment Header 结 构 示 意图 


0 
38 字 节 File Header 
38B 
4 字 节 Se TRX_RSEG MAX SIZE 
4 字 节 TRX_RSEG HISTORY SIZE 


16 字 节 TRX_RSEG_HISTORY 


62B 


10 字 节 TRX_RSEG_FSEG_HEADER 


72B 
总 共 是 16KB 
4096 字 节 TRX_RoSEC_UNDO_SLOTs 


4168B 


没 用 





16376 B 
8 字 节 -| File Trailer 


16 KB 


设计 InnoDB 的 大 叔 规 定 ， 每 一 个 Rollback Segment Header 页 面 都 对 应 着 一 个 段 ， 这 个 段 就 称 为 Rollback 
Segment ， 翻 译 过 来 就 是 回 深 段 。 与 我 们 之 前 介绍 的 各 种 段 不 同 的 是 ， 这 个 Rollback Segment 里 其 实 只 有 一 个 
页 面 (这 可 能 是 设计 InnoDB 的 大 叔 们 的 一 种 洁癖 ， 他 们 可 能 觉得 为 了 其 个 目的 去 分 配 页 面 的 话 都 得 先 申 请 一 个 
段 , 或 者 他 们 觉得 虽然 目前 版 本 的 MySQL 里 Rollback Segment 里 其 实 只 有 一 个 页 面 ， 但 可 能 之 后 的 版 本 里 会 增 
加 页 面 也 说 不 定 ) 。 


了 解 了 Rollback Segment 的 含义 之 后 ， 我 们 再 来 看 看 这 个 称 之 为 Rollback Segment Header 的 页 面 的 各 个 部 分 
的 含义 都 是 喻 意思 : 


。 TRX RSEG MAX SIZE : 本 Rollback Segment 中 管理 的 所 有 Undo 页 面 链表 中 的 Undo 页 面 数量 之 和 的 最 大 
值 。 换 句 话 说 ， 本 Rollback Segment 中 所 有 Undo 页 面 链表 中 的 Undo 页 面 数量 之 和 不 能 超过 
TRX_RSEG MAX_SIZE 代表 的 值 。 


该 属性 的 值 默认 为 无 限 大 ， 也 就 是 我 们 想 写 多 少 Undo 页 面 都 可 以 。 


小 贴 士 : 
无 限 大 其 实 也 只 是 个 夸张 的 说 法 ，4 个 字 节 能 表示 最 大 的 数 也 就 是 0xFFFFFFFF， 但 是 我 们 之 后 会 
看 到 ，0xFFFFFFFF 这 个 数 有 特殊 用 途 ， 所 以 实际 上 TRX RSEG MAX STZE 的 值 为 0xFFFFFFFE。 





。 TRX RSEG HISTORY SIZE : History 链表 占用 的 页 面 数量 。 
。 TRX RSEG HISTORY : History 链表 的 基 节 点 。 

小 由 士 : 

History 链 表 后 边 讲 ， 稍 安 勿 躁 。 


。 TRX RSEG FSEG HEADER : 本 Rollback Segment 对 应 的 10 字 节 大 小 的 Segment Header 结构 ， 通 过 它 可 以 找 


到 本 段 对 应 的 INODE Entry 。 
。 TRX RSEG UNDO SLOTS : 各 个 Undo 页 面 链表 的 first undo page 的 页 号 集合 ， 也 就 是 undo slot 集合 




















一 个 页 号 占用 4 个 字 节 ， 对 于 16KB 大 小 的 页 面 来 说 ， 这 个 TRX_RSEG_UNDO_SLOTS 部 分 共存 储 了 1024 个 
undo slot ， 所 以 共 需 1024 X 4 = 4096 个 字 节 。 


23.6.2 从 回 滚 段 中 申请 Undo 页 面 链表 


初始 情况 下 ， 由 于 未 向 任何 事务 分 配 任何 Undo 页 面 链表 ， 所 以 对 于 一 个 Rollback Segment Header 页 面 来 说 ， 
它 的 各 个 undo slot 都 被 设置 成 了 一 个 特殊 的 值 : FIL NULL (对 应 的 十 六 进 制 就 是 0xFFFFFFFF ) ， 表 示 该 
undo slot 不 指向 任何 页 面 。 


随 着 时 间 的 流逝 ， 开 始 有 事务 需要 分 配 Undo 页 面 链表 了 ， 就 从 回 滚 段 的 第 一 个 undo slot 开始 ， 看 看 该 undo 
slot 的 值 是 不 是 FIL_NULL : 


。 如 果 是 FIL_NULL ， 那 么 在 表 空 间 中 新 创建 一 个 段 (也 就 是 Undo Log Segment ) ， 然 后 从 段 里 申请 一 个 页 面 
作为 Undo 页 面 链表 的 first undo page ， 然 后 把 该 undo slot 的 值 设置 为 刚刚 申请 的 这 个 页 面 的 地 址 ， 这 
样 也 就 意味 着 这 个 undo slot 被 分 配给 了 这 个 事务 。 

。 如 果 不 是 FIL_NULL ， 说 明 该 undo slot 已 经 指向 了 一 个 undo 链 表 ， 也 就 是 说 这 个 undo slot 已 经 被 别 的 
事务 占用 了 ， 那 就 跳 到 下 一 个 undo slot ,判断 该 undo slot 的 值 是 不 是 FIL_NULL ， 重 复 上 边 的 步骤 。 




















一 个 Rollback Segment Header 页 面 中 包含 1024 个 undo slot ， 如 果 这 1024 个 undo slot 的 值 都 不 为 
FIL_NULL ， 这 就 意味 着 这 1024 个 undo slot 都 已 经 名 花 有 主 (被 分 配给 了 某 个 事务 ) ， 此 时 由 于 新 事务 无 法 
再 获得 新 的 Undo 页 面 链表 ， 就 会 回 滚 这 个 事务 并 且 给 用 户 报错 : 




















Too many active concurrent transactions 
用 户 看 到 这 个 错误 ， 可 以 选择 重新 执行 这 个 事务 (可 能 重新 执行 时 有 别 的 事务 提交 了 ， 该 事务 就 可 以 被 分 配 Undo 
页 面 链表 了 ) 。 
当 一 个 事务 提交 时 ， 它 所 占用 的 undo slot 有 两 种 命运 : 


。 如 果 该 undo slot 指向 的 Undo 页 面 链表 符合 被 重用 的 条 件 (就 是 我 们 上 边 说 的 Undo 页 面 链表 只 占用 一 个 
页 面 并 且 已 使 用 空间 小 于 整个 页 面 的 3/4) 。 


该 undo slot 就 处 于 被 缓存 的 状态 ， 设 计 InnoDB 的 大 叔 规定 这 时 该 Undo 页 面 链表 的 TRX_UNDO_STATE 属性 
(该 属性 在 first undo page 的 Undo Log Segment Header 部 分 ) 会 被 设置 为 TRX_UNDO_CACHED 。 


























被 缓存 的 undo slot 都 会 被 加 入 到 一 个 链表 ， 根 据 对 应 的 Undo 页 面 链表 的 类 型 不 同 ， 也 会 被 加 入 到 不 同 的 



































链表 : 
a 如 果 对 应 的 Undo 页 面 链表 是 insert undo 链 表 ， 则 该 undo slot 会 被 加 入 insert undo cached 链 
表 。 
a 如 果 对 应 的 Undo 页 面 链表 是 update undo 链 表 ， 则 该 undo slot 会 被 加 入 update undo cached 链 
表 。 








一 个 回 滚 段 就 对 应 着 上 述 两 个 cached 链 表 ， 如 果 有 新 事务 要 分 配 undo slot 时 ， 先 从 对 应 的 cached 链 
表 中 找 。 如 果 没 有 被 缓存 的 undo slot ， 才 会 到 回 滚 段 的 Rollback Segment Header 页 面 中 再 去 找 。 
。 如 果 该 undo slot 指向 的 Undo 页 面 链表 不 符合 被 重用 的 条 件 ， 那 么 针对 该 undo slot 对 应 的 Undo 页 面 链 
表 类 型 不 同 ， 也 会 有 不 同 的 处 理 : 
" 如 果 对 应 的 Undo 页 面 链表 是 insert undo 链 表 ， 则 该 Undo 页 面 链表 的 TRX_UNDO_STATE 属性 会 被 设置 
为 TRX_UNDO_TO_FREE ， 之 后 该 Undo 页 面 链表 对 应 的 段 会 被 释放 掉 (也 就 意味 着 段 中 的 页 面 可 以 被 挪 作 
他 用 ) ， 然 后 把 该 undo slot 的 值 设置 为 FIL_NULL 。 





























" 如 果 对 应 的 Undo 页 面 链表 是 update undo 链 表 ， 则 该 Undo 页 面 链表 的 TRX_UND0_STATE 属性 会 被 设置 
为 TRX_UNDO_TO_PRUGE ， 则 会 将 该 undo slot 的 值 设 置 为 FIL_NULL ， 然 后 将 本 次 事务 写 入 的 一 组 
undo 日 志 放 到 所 谓 的 History 链 表 中 (需要 注意 的 是 ， 这 里 并 不 会 将 Undo 页 面 链表 对 应 的 段 给 释放 
掉 ， 因 为 这 些 undo 日 志 还 有 用 呢 ~ ) 。 


小 由 士 : 
更 多 关于 History 链 表 的 事 我 们 稍 后 再 说 ， 稍 安 勿 躁 哈 。 














23.6.3 多 个 回 滚 段 


我 们 说 一 个 事务 执行 过 程 中 最 多 分 配 4 个 Undo 页 面 链表 ， 而 一 个 回 滚 段 里 只 有 1024 个 undo slot ， 很 显然 
undo slot 的 数量 有 点 少 啊 。 我 们 即使 假设 一 个 读 写 事务 执行 过 程 中 只 分 配 1 个 Undo 页 面 链表 ， 那 1024 个 
undo slot 也 只 能 支持 1024 个 读 写 事务 同时 执行 ， 再 多 了 就 朋 溃 了 。 这 就 相当 于 会 议 室 只 能 容 下 1024 个 班长 同 
时 开会 ， 如 果 有 几 干 人 同时 到 会议 室 开 会 的 话 ， 那 后 来 的 那些 班长 就 没 地 方 坐 了 ， 只 能 等 待 前 边 的 人 开 完 会 自己 
再 进去 开 。 


话说 在 InnoDB 的 早期 发 展 阶段 的 确 只 有 一 个 回 滚 段 ， 但 是 设计 InnoDB 的 大 叔 后 来 意识 到 了 这 个 问题 ， 咋 解决 这 
问题 呢 ? 会 议 室 不 够 ， 多 盖 几 个 会 议 室 不 就 得 了 。 所 以 设计 InnoDB 的 大 叔 一 口气 定义 了 128 个 回 滚 段 ， 也 就 相 

当 于 有 了 128 Xx 1024 = 131072 个 undo slot 。 假 设 一 个 读 写 事务 执行 过 程 中 只 分 配 1 个 Undo 页 面 链表 ， 那 

么 就 可 以 同时 支持 131072 个 读 写 事务 并 发 执行 (这 么 多 事务 在 一 台 机 器 上 并 发 执行 ， 还 真 没 见 过 呢 ~ ) 。 


小 贴 士 : 
只 读 事 务 并 不 需要 分 配 Undo 页 面 链表 ，MySQL 5. 7 中 所 有 刚 开 局 的 事务 默认 都 是 只 读 事务 ， 只 有 在 事务 
执行 过 程 中 对 记录 做 了 某 些 改动 时 才 会 被 升级 为 读 写 事务 。 








每 个 回 滚 段 都 对 应 着 一 个 Rollback Segment Header 页 面 ， 有 128 个 回 滚 段 ， 自 然 就 要 有 128 个 Rollback 
Segment Header 页 面 ， 这 些 页 面 的 地 址 总 得 找 个 地 方 存 一 下 吧 ! 于 是 设计 InnoDB 的 大 叔 在 系统 表 空 间 的 第 5 号 
页 面 的 某 个 区 域 包 含 了 128 个 8 字 节 大 小 的 格子 : 


共 128 个 格子 ， 
每 个 格子 占用 8 字 节 





每 个 8 字 节 的 格子 的 构造 就 像 这 样 : 


Space ID Page Number 





0 4 8 


如 果 所 示 ， 每 个 8 字 节 的 格子 其 实 由 两 部 分 组 成 : 


。 4 字 节 大 小 的 Space ID ， 代 表 一 个 表 空 间 的 ID。 
。 4 字 节 大 小 的 Page number ， 代 表 一 个 页 号 。 


也 就 是 说 每 个 8 字 节 大 小 的 格子 相当 于 一 个 指针 ， 指 向 某 个 表 空间 中 的 某 个 页 面 ， 这 些 页 面 就 是 Rollback 
Segment Header 。 这 里 需要 注意 的 一 点 事 ， 要 定位 一 个 Rollback Segment Header 还 需要 知道 对 应 的 表 空间 
ID， 这 也 就 意味 着 不 同 的 回 滚 段 可 能 分 布 在 不 同 的 表 空 间 中 。 


所 以 通过 上 边 的 叙述 我 们 可 以 大 致 清楚 ， 在 系统 表 空 间 的 第 5 号 页 面 中 存储 了 128 个 Rollback Segment Header 
页 面 地 址 ， 每 个 Rollback Segment Header 就 相当 于 一 个 回 滚 段 。 在 Rollback Segment Header 页 面 中 ， 又 包 
含 1024 个 undo slot ， 每 个 undo slot 都 对 应 一 个 Undo 页 面 链表 。 我 们 画 个 示意 图 : 


系统 表 空 间 第 5 号 页 面 





Rollback Segment ，，， Rollback Segment 。,。， Rollback Segment 
Header Header Header 























把 图 一 画 出 来 就 清 殉 多 了 。 


23.6.4 回 滚 段 的 分 类 


我 们 把 这 128 个 回 滚 段 给 编 一 下 号 ， 最 开始 的 回 滚 段 称 之 为 第 0 号 回 滚 段 ， 之 后 依次 递增 ， 最 后 一 个 回 滚 段 就 称 
之 为 第 127 号 回 滚 段 。 这 128 个 回 滚 段 可 以 被 分 成 两 大 类 : 


。 第 0 号 、 第 33 一 127 号 回 滚 段 属于 一 类 。 其 中 第 0 号 回 滚 段 必须 在 系统 表 空 间 中 (就 是 说 第 0 号 回 滚 段 对 
应 的 Rollpack Segment Header 页 面 必 须 在 系统 表 空 间 中 ) ， 第 33 一 127 号 回 滚 段 既 可 以 在 系统 表 空 间 中 ， 
也 可 以 在 自己 配置 的 undo 表 空 间 中 ， 关 于 怎么 配置 我 们 稍 后 再 说 。 


如 果 一 个 事务 在 执行 过 程 中 由 于 对 普通 表 的 记录 做 了 改动 需要 分 配 Undo 页 面 链表 时 ， 必 须 从 这 一 类 的 段 中 
分 配 相 应 的 undo slot 。 
。 第 1 一 32 号 回 滚 段 属于 一 类 。 这 些 回 滚 段 必 须 在 临时 表 空 间 (对 应 着 数据 目录 中 的 ibtmpl 文件 ) 中 。 


如 果 一 个 事务 在 执行 过 程 中 由 于 对 临时 表 的 记录 做 了 改动 需要 分 配 Undo 页 面 链表 时 ， 必 须 从 这 一 类 的 段 中 
分 配 相应 的 undo slot 。 


也 就 是 说 如 果 一 个 事务 在 执行 过 程 中 既 对 普通 表 的 记录 做 了 改动 ， 又 对 临时 表 的 记录 做 了 改动 ， 那 么 需要 为 这 个 
记录 分 配 2 个 回 滚 段 ， 再 分 别 到 这 两 个 回 滚 段 中 分 配对 应 的 undo slot 。 


不 知道 大 家 有 没有 疑惑 ， 为 哈 要 把 针对 普通 表 和 | 临时 表 来 划分 不 同 种 类 的 回 滚 段 呢 ? 这 个 还 得 从 Undo 页 面 本 身 
说 起 ， 我 们 说 Undo 页 面 其 实 是 类 型 为 FIL PAGE_UND0O_L06G 的 页 面 的 简称 ， 说 到 底 它 也 是 一 个 普通 的 页 面 。 我 们 
前 边 说 过 ， 在 修改 页 面 之 前 一 定 要 先 把 对 应 的 redo 日 志 写 上 ， 这 样 在 系统 奔 溃 重启 时 才能 恢复 到 奔 溃 前 的 状 
态 。 我 们 向 Undo 页 面 写 入 undo 日 志 本 身 也 是 一 个 写 页 面 的 过 程 ， 设 计 InnoDB 的 大 叔 为 此 还 设计 了 许多 种 
redo 日 志 的 类 型 ， 比 方 说 ML0G UNDO HDR CREATE 、 MLOG_UNDO _ INSERT 、 MLOG_UNDO_INIT 等 等 等 等 ， 也 就 是 
说 我 们 对 Undo 页 面 做 的 任何 改动 都 会 记录 相应 类 型 的 redo 日 志 。 但 是 对 于 临时 表 来 说 ， 因 为 修改 临时 表 而 产生 
的 undo 日 志 只 需要 在 系统 运行 过 程 中 有 效 ， 如 果 系 统 奔 演 了 ， 那 么 在 重启 时 也 不 需要 恢复 这 些 undo 日 志 所 在 的 
页 面 ， 所 以 在 写 针对 临时 表 的 Undo 页 面 时 ， 并 不 需要 记录 相应 的 redo 日 志 。 总 结 一 下 针对 普通 表 和 人 临时 表 划 分 
不 同 种 类 的 回 滚 段 的 原因 : 在 修改 针对 普通 表 的 回 滚 段 中 的 Undo 页 面 时 ， 需 要 记录 对 应 的 redo 日 志 ， 而 修改 针 
对 临时 表 的 回 滚 段 中 的 Undo 页 面 时 ， 不 需要 记录 对 应 的 redo 日 志 。 


小 贴 士 : 

实际 上 在 MySQL 5. 7. 21 这 个 版 本 中 ， 如 果 我 们 仅仅 对 普通 表 的 记录 做 了 改动 ， 那 么 只 会 为 该 事务 分 配 针 
对 普通 表 的 回 滚 段 ， 不 分 配 针 对 临时 表 的 回 滚 段 。 但 是 如 果 我 们 仅仅 对 临时 表 的 记录 做 了 改动 ， 那 么 既 
会 为 该 事务 分 配 针 对 普通 表 的 回 滚 段 ， 又 会 为 其 分 配 针对 临时 表 的 回 滚 段 〈 不 过 分 配 了 回 滚 段 并 不 会 立 
即 分 配 undo slot， 只 有 在 真正 需要 Undo 页 面 链表 时 才 会 去 分 配 回 滚 段 中 的 undo slot) 。 



































































































































































































































23.6.5 为 事务 分 配 Undo 页 面 链表 详细 过 程 


上 边 说 了 一 大 堆 的 概念 ， 大 家 应 该 有 一 点 点 的 小 晕 ， 接 下 来 我 们 以 事务 对 普通 表 的 记录 做 改动 为 例 ， 给 大 家 梳理 
一 下 事务 执行 过 程 中 分 配 Undo 页 面 链表 时 的 完整 过 程 ， 


。 事务 在 执行 过 程 中 对 普通 表 的 记录 首次 做 改动 之 前 ， 首 先 会 到 系统 表 空 间 的 第 5 号 页 面 中 分 配 一 个 回 滚 段 
(其 实 就 是 获取 一 个 Rollback Segment Header 页 面 的 地 址 ) 。 一 旦 某 个 回 滚 段 被 分 配给 了 这 个 事务 ， 那 么 
之 后 该 事务 中 再 对 普通 表 的 记录 做 改动 时 ， 就 不 会 重复 分 配 了 。 


使 用 传说 中 的 round-robin (循环 使 用 ) 方式 来 分 配 回 滚 段 。 比 如 当前 事务 分 配 了 第 0 号 回 滚 段 ， 那 么 下 一 
个 事务 就 要 分 配 第 33 号 回 滚 段 ， 下 下 个 事务 就 要 分 配 第 34 号 回 滚 段 ， 简 单一 点 的 说 就 是 这 些 回 滚 段 被 轮 着 
分 配给 不 同 的 事务 (就 是 这 么 简单 粗暴 ， 没 喻 好 说 的 ) 。 

在 分 配 到 回 滚 段 后 ， 首 先 看 一 下 这 个 回 滚 段 的 两 个 cached 链 表 有 没有 已 经 缓存 了 的 undo slot ， 比 如 如 果 
事务 做 的 是 INSERT 操作 ， 就 去 回 滚 段 对 应 的 insert undo cached 链 表 中 看 看 有 没有 缓存 的 undo slot ; 
如 果 事 务 做 的 是 DELETE 操作 ， 就 去 回 滚 段 对 应 的 update undo cached 链 表 中 看 看 有 没有 缓存 的 undo 

slot 。 如 果 有 缓存 的 undo slot ， 那 么 就 把 这 个 缓存 的 undo slot 分 配给 该 事务 。 

如 果 没 有 缓存 的 undo slot 可 供 分 配 ， 那 么 就 要 到 Rollback Segment Header 页 面 中 找 一 个 可 用 的 undo 
slot 分 配给 当前 事务 。 


从 Rollback Segment Header 页 面 中 分 配 可 用 的 undo slot 的 方式 我 们 上 边 也 说 过 了 ， 就 是 从 第 0 个 undo 
slot 开始 ， 如 果 该 undo slot 的 值 为 FIL NULL ， 意 味 着 这 个 undo _ slot 是 空闲 的 ， 就 把 这 个 undo slot 
分 配给 当前 事务 ， 否 则 查看 第 1 个 undo slot 是 否 满足 条 件 ， 依 次 类 推 ， 直 到 最 后 一 个 undo slot 。 如 果 
这 1024 个 undo slot 都 没有 值 为 FIL_NULL 的 情况 ， 就 直接 报错 (一 般 不 会 出 现 这 种 情况 ) ~ 











。 找到 可 用 的 undo slot 后 ， 如 果 该 undo slot 是 从 cached 链 表 中 获取 的 ， 那 么 它 对 应 的 Undo Log 
Segment 已 经 分 配 了 ， 否 则 的 话 需要 重新 分 配 一 个 Undo Log Segment ， 然 后 从 该 Undo Log Segment 中 申请 
一 个 页 面 作 为 Undo 页 面 链表 的 first undo page 。 

。 然后 事务 就 可 以 把 undo 日 志 写 入 到 上 边 申请 的 Undo 页 面 链表 了 ! 


对 临时 表 的 记录 做 改动 的 步骤 和 上 述 的 一 样 ， 就 不 乾 述 了 。 不 错 需要 再 次 强调 一 次 ， 如 果 一 个 事务 在 执行 过 程 中 
既 对 普通 表 的 记录 做 了 改动 ， 又 对 临时 表 的 记录 做 了 改动 ， 那 么 需要 为 这 个 记录 分 配 2 个 回 滚 段 。 并 发 执行 的 不 
同事 务 其 实 也 可 以 被 分 配 相同 的 回 滚 段 ， 只 要 分 配 不 同 的 undo slot 就 可 以 了 。 


23.7 回 滚 段 相关 配置 


23.7.1 配置 回 滚 段 数量 


我 们 前 边 说 系统 中 一 共有 128 个 回 滚 段 ， 其 实 这 只 是 默认 值 ， 我 们 可 以 通过 启动 参数 
innodb_rollback_segments 来 配置 回 滚 段 的 数量 ， 可 配置 的 范围 是 1 128 。 但 是 这 个 参数 并 不 会 影响 针对 临时 
表 的 回 滚 段 数量 ， 针 对 临时 表 的 回 滚 段 数量 一 直 是 32 ， 也 就 是 说 : 


。 如 果 我 们 把 innodb_rollback_segments 的 值 设置 为 1 ， 那 么 只 会 有 1 个 针对 普通 表 的 可 用 回 滚 段 ， 但 是 仍 
然 有 32 个 针对 临时 表 的 可 用 回 滚 段 。 

。 ， 如 果 我 们 把 innodb_rollback_segments 的 值 设置 为 2 一 33 之 间 的 数 ， 效 果 和 将 其 设置 为 1 是 一 样 的 。 

。 如 果 我 们 把 innodb_rollback_segments 设置 为 大 于 33 的 数 ， 那 么 针对 普通 表 的 可 用 回 滚 段 数量 就 是 该 值 减 
去 32。 





23.7.2 配置 undo 表 空间 


默认 情况 下 ， 针 对 普通 表 设 立 的 回 滚 段 (第 0 号 以 及 第 33 127 号 回 滚 段 ) 都 是 被 分 配 到 系统 表 空间 的 。 其 中 的 
第 第 0 号 回 滚 段 是 一 直 在 系统 表 空间 的 ， 但 是 第 33 “127 号 回 滚 段 可 以 通过 配置 放 到 自 定 义 的 undo 表 空间 中 。 
但 是 这 种 配置 只 能 在 系统 初始 化 (创建 数据 目录 时 ) 的 时 候 使 用 ， 一 旦 初始 化 完成 ， 之 后 就 不 能 再 次 更 改 了 。 我 
们 看 一 下 相关 启动 参数 : 


。 通过 innodb_undo_directory 指定 undo 表 空间 所 在 的 目录 ， 如 果 没 有 指定 该 参数 ， 则 默认 undo 表 空间 所 
在 的 目录 就 是 数据 目录 。 
。 通过 innodb_undo_tablespaces 定义 undo 表 空间 的 数量 。 该 参数 的 默认 值 为 0 ， 表 明 不 创建 任何 undo 表 


空间 。 





第 33 127 号 回 滚 段 可 以 平均 分 布 到 不 同 的 undo 表 空间 中 。 


小 贴 士 : 
如 果 我 们 在 系统 初始 化 的 时 候 指定 了 创建 了 undo 表 空间 ， 那 么 系统 表 空 间 中 的 第 0 号 回 滚 段 将 处 于 不 可 
用 状态 。 

















比如 我 们 在 系统 初始 化 时 指定 的 innodb_rollback_segments 为 35 ， innodb_undo_tablespaces 为 2 ， 这 样 就 
会 将 第 33 、 34 号 回 滚 段 分 别 分 布 到 一 个 undo 表 空间 中 。 


设立 undo 表 空间 的 一 个 好 处 就 是 在 undo 表 空间 中 的 文件 大 到 一 定 程 度 时 ， 可 以 自动 的 将 该 undo 表 空间 截断 
(truncate) 成 一 个 小 文件 。 而 系统 表 空 间 的 大 小 只 能 不 断 的 增 大 ， 却 不 能 截断 。 














24 第 24 章 一 条 记录 的 多 幅面 孔 -事务 的 隔离 级 别 与 
MVCC 


标签 : MySQL 是 怎样 运行 的 


24.1 事前 准备 
为 了 故事 的 顺利 发 展 ， 我 们 需要 创建 一 个 表 : 


CREATE TABLE hero ( 
number INT, 
name VARCHAR (100), 
country varchar (100), 
PRIMARY KEY (number) 

) Engine=InnoDB CHARSET=utf8; 


小 贴 士 : 
注意 我 们 把 这 个 hero 表 的 主键 命名 为 number， 而 不 是 id， 主 要 是 想 和 后 边 要 用 到 的 事务 id 做 区 别 ， 大 家 
不 用 大 惊 小 怪 哈 一 


然后 向 这 个 表 里 插入 一 条 数据 : 


INSERT INTO hero VALUES (1，?’ 刘备 ” ，’ 蜀 ’ ) ; 



































现在 表 里 的 数据 就 是 这 样 的 : 


mysql> SELECT x*¥ FROM hero; 





| number | name | country | 
| 








1 | 刘备 | 蜀 | 





1 row in set (0. 00 sec) 


24.2 事务 隔离 级 别 


我 们 知道 MySQL 是 一 个 客户 端 / 服务 器 架构 的 软件 ， 对 于 同一 个 服务 器 来 说 ， 可 以 有 若干 个 客户 端 与 之 连接 ， 
每 个 客户 端 与 服务 器 连接 上 之 后 ， 就 可 以 称 之 为 一 个 会 话 ( Session ) 。 每 个 客户 端 都 可 以 在 自己 的 会 话 中 向 服 
务 器 发 出 请 求 语句 ， 一 个 请 求 语句 可 能 是 某 个 事务 的 一 部 分 ， 也 就 是 对 于 服务 器 来 说 可 能 同时 处 理 多 个 事务 。 在 
事务 简介 的 章节 中 我 们 说 过 事务 有 一 个 称 之 为 隔离 性 的 特性 ， 理 论 上 在 某 个 事务 对 某 个 数据 进行 访问 时 ， 其 他 
事务 应 该 进行 排队 ， 当 该 事务 提交 之 后 ， 其 他 事务 才 可 以 继续 访问 这 个 数据 。 但 是 这 样子 的 话 对 性 能 影响 太 大 ， 
我 们 既 想 保持 事务 的 隔离 性 ， 又 想 让 服务 器 在 处 理 访问 同一 数据 的 多 个 事务 时 性 能 尽量 高 些 ， 鱼 和 能 掌 不 可 得 
兼 ， 舍 一 部 分 隔离 性 而 取 性 能 者 也 。 











24.2.1 事务 并 发 执行 遇 到 的 问题 


怎么 个 舍弃 法 呢 ? 我 们 先 得 看 一 下 访问 相同 数据 的 事务 在 不 保证 串 行 执行 〈 也 就 是 执行 完 一 个 再 执行 另 一 个 ) 的 
情况 下 可 能 会 出 现 哪些 问题 : 


。 脏 写 ( Dirty Write ) 


如 果 一 个 事务 修改 了 另 一 个 未 提交 事务 修改 过 的 数据 ， 那 就 意味 着 发 生 了 脏 写 ， 示 意图 如 下 : 


脏 写 示意 图 


全 BEGIN; 
BEGIN,; 
@ UPDATE hero SET name =' 关 羽 ' WHERE number = 1; 
@ UPDATE hero SET name =' 张 飞 WHERE number = 1; 
© COMMIT; 
© ROLLBACK, 


如 上 图 ， Session A 和 Session B 各 开启 了 一 个 事务 ， Session B 中 的 事务 先 将 number 列 为 1 的 记录 的 
name 列 更 新 为 ”关羽 ”， 然 后 Session A 中 的 事务 接着 又 把 这 条 number 列 为 1 的 记录 的 name 列 更 新 为 
张 飞 。 如 果 之 后 Session B 中 的 事务 进行 了 回 滚 ， 那 么 Session A 中 的 更 新 也 将 不 复 存 在 ， 这 种 现象 就 称 

之 为 脏 写 。 这 时 Session A 中 的 事务 就 很 懂 逼 ， 我 明明 把 数据 更 新 了 ， 最 后 也 提交 事务 了 ， 怎 么 到 最 后 说 
自己 喻 也 没 干 呢 ? 

。 脏 读 ( Dirty Read ) 


如 果 一 个 事务 读 到 了 另 一 个 未 提交 事务 修改 过 的 数据 ， 那 就 意味 着 发 生 了 脏 读 ， 示 意图 如 下 : 


Er 
人 BEGIN; 
© BEGIN; 
@ UPDATE hero SET name =' 关 羽 ' WHERE number = 1; 
@ 时 | 列 name 的 什 入 关羽 ， 则 训 际 首发 生 了 脏 该) 
© COMMIT 
© ROLLBACK 


如 上 图 ， Session A 和 Session B 各 开启 了 一 个 事务 ， Session B 中 的 事务 先 将 number 列 为 1 的 记录 的 
name 列 更 新 为 "关羽 ”， 然 后 Session A 中 的 事务 再 去 查询 这 条 number 为 1 的 记录 ， 如 果 du 到 列 name 的 
值 为 "关羽 ”， 而 Session B 中 的 事务 稍 后 进行 了 回 滚 ， 那 么 Session A 中 的 事务 相当 于 读 到 了 一 个 不 存在 
的 数据 ， 这 种 现象 就 称 之 为 脏 读 。 

。 不 可 重复 读 (Non-Repeatable Read) 


如 果 一 个 事务 只 能 读 到 另 一 个 已 经 提交 的 事务 修改 过 的 数据 ， 并 且 其 他 事务 每 对 该 数据 进行 一 次 修改 并 提交 
后 ， 该 事务 都 能 查询 得 到 最 新 值 ， 那 就 意味 着 发 生 了 不 可 重复 读 ， 示 意图 如 下 : 


人 ) BEGIN; 
@ SELECT * FROM hero WHERE number = 1; 
(此 时 读 到 的 列 name 的 值 为 刘备 ') 
@ UPDATE hero SET name = ' 关 羽 ' WHERE number = 1; 
@ SELECT * FROM hero WHERE number = 1; 
(如 果 读 到 列 name 的 值 为 关羽 '， 则 意味 着 发 生 了 不 可 重复 读 ) 
© UPDATE hero SET name =' 张 飞 WHERE number = 1; 


@ SELECT * FROM hero WHERE number = 1; 
(如 果 读 到 列 name 的 值 为 ' 张 飞 ， 则 意味 着 发 生 了 不 可 重复 读 ) 


如 上 图 ， 我们 在 Session B 中 提交 了 几 个 隐 式 事务 (注意 是 隐 式 事务 ， 意 味 着 语句 结束 事务 就 提交 了 ) ， 这 
些 事务 都 修改 了 number 列 为 1 的 记录 的 列 name 的 值 ， 每 次 事务 提交 之 后 ， 如 果 Session A 中 的 事务 都 可 
以 查看 到 最 新 的 值 ， 这 种 现象 也 被 称 之 为 不 可 重复 读 。 

幻 读 (Phantom) 


如 果 一 个 事务 先 根据 某 些 条 件 查询 出 一 些 记录 ， 之 后 另 一 个 事务 又 向 表 中 插入 了 符合 这 些 条 件 的 记录 ， 原 先 
的 事务 再 次 按照 该 条 件 查询 时 ， 能 把 另 一 个 事务 插入 的 记录 也 读 出 来 ， 那 就 意味 着 发 生 了 幻 读 ， 示 意图 如 
下 : 





幻 读 示意 图 
OD BEGIN; 
GO) SELECT * FROM hero WHERE number > 0; 
(此 时 读 到 的 列 name 的 值 为 刘备 ') 
@ INSERT INTO hero VALUES(2, ' 曹 操 ', ' 魏 '); 
@ SELECT * FROM hero WHERE number > 0; 
(如 果 读 到 列 name 的 值 为 ' 刘 备 '、' 曹 操 ' 的 记录 ， 则 意味 着 发 生 了 幻 读 ) 


如 上 图 ， Session A 中 的 事务 先 根据 条 件 number > 0 这 个 条 件 查询 表 hero ， 得 到 了 name 列 值 为 “ 刘 

备 ” 的 记录 ; 之 后 Session B 中 提交 了 一 个 隐 式 事务 ， 该 事务 向 表 hero 中 插入 了 一 条 新 记录 ; 之 后 
Session A 中 的 事务 再 根据 相同 的 条 件 number > 0 查询 表 hero ， 得 到 的 结果 集中 包含 Session B 中 的 事 
务 新 插入 的 那 条 记录 ， 这 种 现象 也 被 称 之 为 幻 读 。 


有 的 同学 会 有 疑问 ， 那 如 果 Session B 中 是 删除 了 一 些 符合 number > 0 的 记录 而 不 是 插入 新 记录 ， 那 
Session A 中 之 后 再 根据 number > 0 的 条 件 读 取 的 记录 变 少 了 ， 这 种 现象 算 不 算 幻 读 呢 ? 明 确 说 一 下 ， 
这 种 现象 不 属于 幻 读 ， 幻 读 强调 的 是 一 个 事务 按照 某 个 相同 条 件 多 次 读 取 记录 时 ， 后 读 取 时 读 到 了 之 前 没 
有 读 到 的 记录 。 


小 贴 士 : 
那 对 于 先前 已 经 读 到 的 记录 ， 之 后 又 读 取 不 到 这 种 情况 ， 算 喻 呢 ? 其 实 这 相当 于 对 每 一 条 记录 都 
发 生 了 不 可 重复 读 的 现象 。 幻 读 只 是 重点 强调 了 读 取 到 了 之 前 读 取 没有 获取 到 的 记录 。 




















24.2.2 SQL 标准 中 的 四 种 隔离 级 别 
我 们 上 边 介 绍 了 几 种 并 发 事务 执行 过 程 中 可 能 遇 到 的 一 些 问 题 ， 这 些 问题 也 有 轻重 缓急 之 分 ， 我 们 给 这 些 问题 按 
照 严 重 性 来 排 一 下 序 : 


脏 写 》 脏 读 》 不 可 重复 读 》 幻 读 





我 们 上 边 所 说 的 舍弃 一 部 分 隔离 性 来 换取 一 部 分 性 能 在 这 里 就 体现 在 : 设立 一 些 隔离 级 别 ， 隔 离 级 别 越 低 ， 越 严 
重 的 问题 就 越 可 能 发 生 。 有 一 帮 人 (并 不 是 设计 MySQL 的 大 叔 们 ) 制定 了 一 个 所 谓 的 SQL 标准 ， 在 标准 中 设立 了 
4 个 隔离 级 别 : 

。 READ UNCOMMITTED : 未 提交 读 。 

。 READ COMMITTED : 已 提交 读 。 


。 REPEATABLE READ : 可 重复 读 。 
。 SERIALIZABLE : 可 串 行 化 。 


SQL 标准 中 规定 ， 针 对 不 同 的 隔离 级 别 ， 并 发 事务 可 以 发 生 不 同 严重 程度 的 问题 ， 具 体 情况 如 下 : 





隔离 级 别 脏 读 不 可 重复 读 幻 读 
READ UNCOMMITTED Possible Possible Possible 
READ COMMITTED Not Possible Possible Possible 


REPEATABLE READ Not Possible _ Not Possible Possible 


SERIALIZABLE Not Possible Not Possible Not Possible 
也 就 是 说 : 
。 READ UNCOMMITTED 隔离 级 别 下 ， 可 能 发 生 脏 读 、 不 可 重复 读 和 幻 读 问题 。 
。 READ COMMITTED 隔离 级 别 下 ， 可 能 发 生 不 可 重复 读 和 幻 读 问题 ,但 是 不 可 以 发 生 脏 读 问题 。 


。 ” REPEATABLE READ 隔离 级 别 下 ， 可 能 发 生 幻 读 问题 ， 但 是 不 可 以 发 生 脏 读 和 不 可 重复 读 的 问题 。 
。 SERIALIZABLE 隔离 级 别 下 ， 各 种 问题 都 不 可 以 发 生 。 








脏 写 是 怎么 回 事 儿 ?怎么 里 边 都 没 写 呢 ” 这 是 因为 脏 写 这 个 问题 太 严重 了 ， 不 论 是 哪 种 隔离 级 别 ， 都 不 允许 脏 
写 的 情况 发 生 。 


24.2.3 _ MySQL 中 支持 的 四 种 隔离 级 别 


不 同 的 数据 库 厂商 对 SQL 标准 中 规定 的 四 种 隔离 级 别 支 持 不 一 样 ， 比 方 说 0racle 就 只 支持 READ COMMITTED 和 

SERIALIZABLE 隔离 级 别 。 本 书 中 所 讨论 的 MySQL 虽然 支持 4 种 隔离 级 别 ， 但 与 SQL 标准 中 所 规定 的 各 级 隔离 级 
别 允 许 发 生 的 问题 却 有 些 出 入 ，MySQL 在 REPEATABLE READ 陋 离 级 别 下 ， 是 可 以 禁止 幻 读 问 题 的 发 生 的 ( 关 
于 如 何 禁止 我 们 之 后 会 详细 说 明 的 ) 。 


MySQL 的 默认 隔离 级 别 为 REPEATABLE READ ， 我 们 可 以 手动 修改 一 下 事务 的 隔离 级 别 。 














24.2.3.1 如 何 设置 事务 的 隔离 级 别 
我 们 可 以 通过 下 边 的 语句 修改 事务 的 隔离 级 别 : 
SET [GLOBAL|SESSION] TRANSACTION ISOLATION LEVEL level; 


其 中 的 level 可 选 值 有 4 个 : 


level: { 
REPEATABLE READ 
| READ COMMITTED 
| READ UNCOMMITTED 
| SERIALIZABLE 
} 


设置 事务 的 隔离 级 别 的 语句 中 ， 在 SET 关键 字 后 可 以 放置 GLOBAL 关键 字 、 SESSION 关键 字 或 者 什么 都 不 放 ， 这 
样 会 对 不 同 范围 的 事务 产生 不 同 的 影响 ,具体 如 下 : 


。 使 用 GLOBAL 关键 字 (在 全 局 范围 影响 ) : 
比方 说 这 样 : 
SET GLOBAL TRANSACTION ISOLATION LEVEL SERIALIZABLE; 


则 : 

。 只 对 执行 完 该 语句 之 后 产生 的 会 话 起 作用 。 
" 当前 已 经 存在 的 会 话 无 效 。 

使 用 SESSION 关键 字 (在 会 话 范围 影响 ) : 

比方 说 这 样 : 


SET SESSION TRANSACTION ISOLATION LEVEL SERIALIZABLE.; 


则 : 
" 对 当前 会 话 的 所 有 后 续 的 事务 有 效 
=。 该 语句 可 以 在 已 经 开启 的 事务 中 间 执 行 ， 但 不 会 影响 当前 正在 执行 的 事务 。 
" 如 果 在 事务 之 间 执 行 ， 则 对 后 续 的 事务 有 效 。 

上 述 两 个 关键 字 都 不 用 (只 对 执行 语句 后 的 下 一 个 事务 产生 影响 ) : 


比方 说 这 样 : 


SET TRANSACTION ISOLATION LEVEL SERIALIZABLE ; 


则 : 
”只 对 当前 会 话 中 下 一 个 即将 开启 的 事务 有 效 。 
。 下 一 个 事务 执行 完 后 ， 后 续 事务 将 恢复 到 之 前 的 隔离 级 别 。 
” 该 语句 不 能 在 已 经 开启 的 事务 中 间 执 行 ， 会 报错 的 。 


如 果 我 们 在 服务 器 启动 时 想 改 变 事 务 的 默认 隔离 级 别 ， 可 以 修改 启动 参数 transaction-isolation 的 值 ， 比 方 说 
我 们 在 启动 服务 器 时 指定 了 --transaction-isolation=SERIALIZABLE ， 那 么 事务 的 默认 隔离 级 别 就 从 原来 的 
REPEATABLE READ 变 成 了 SERIALIZABLE 。 


想 要 查看 当前 会 话 默 认 的 隔离 级 别 可 以 通过 查看 系统 变量 transaction_isolation 的 值 来 确定 : 


mysql> SHOW VARIABLES LIKE ’ transaction isolation ; 





Variable name Value 





transaction isolation | REPEATABLE-READ 














1 row in set (0.02 sec) 


或 者 使 用 更 简便 的 写法 : 


mysql> SELECT @@transaction isolation; 





@@transaction isolation 





REPEATABLE-READ 











1 row in set (0. 00 sec) 


小 贴 士 : 

我 们 也 可 以 使 用 设置 系统 变量 transaction_isolation 的 方式 来 设置 事务 的 隔离 级 别 ， 不 过 我 们 前 边 介 

绍 过 ， 一 般 系 统 变 量 只 有 GLOBAL 和 SESSION 两 个 作用 范围 ， 而 这 个 transaction isolation 却 有 3 个 (与 

上 边 SET TRANSACTION ISOLATION LEVEL 的 语法 相对 应 ) ， 设 置 语 法 上 有 些 特殊 ， 更 多 详情 可 以 参见 文 
档 : https://dev.mysql. com/doc/refman/5. 7/en/server-system-variables. html#sysvar transactio 














n isolation。 
另外 ，transaction isolation 是 在 MySQL 5.7. 20 的 版 本 中 引入 来 替换 tx_isolation 的 ， 如 果 你 使 用 的 
是 之 前 版 本 的 MySQL， 请 将 上 述 用 到 系统 变量 transaction_ isolation 的 地 方 替换 为 tx isolation。 











24.3 MVCC 原 理 


24.3.1 版 本 链 


我 们 前 边 说 过 ， 对 于 使 用 InnoDB 存储 引擎 的 表 来 说 ， 它 的 聚 复 索 引 记录 中 都 包含 两 个 必要 的 隐藏 列 ( row_id 并 
不 是 必要 的 ， 我 们 创建 的 表 中 有 主键 或 者 非 NULL 的 UNIQUE 键 时 都 不 会 包含 row_id 列 ) : 


trx_id : 每 次 一 个 事务 对 某 条 聚 篮 索 引 记 录 进 行 改 动 时 ， 都 会 把 该 事务 的 事务 id 赋值 给 trx_id 隐藏 列 。 
roll_pointer : 每 次 对 某 条 聚 艇 索引 记录 进行 改动 时 ， 都 会 把 上 日 的 版 本 写 入 到 undo 日 志 中 ， 然 后 这 个 隐藏 
列 就 相当 于 一 个 指针 ， 可 以 通过 它 来 找到 该 记录 修改 前 的 信息 。 





比方 说 我 们 的 表 hero 现在 只 包含 一 条 记录 : 


mysql> SELECT x* FROM hero; 





number | name country | 
| 














1 | 刘备 蜀 | 





1 row in set (0.07 sec) 


假设 插入 该 记录 的 事务 id 为 80 ， 那 么 此 刻 该 条 记录 的 示意 图 如 下 所 示 : 


number name country trx_id roll_pointer 





lacs lelele 


小 贴 士 : 





实际 上 insert undo 只 在 事务 回 深 时 起 作用 ， 当 事务 提交 后 ， 该 类 型 的 undo 日 志 就 没 用 了 ， 它 占用 的 Und 
0 Log Segment 也 会 被 系统 回收 (也 就 是 该 undo 日 志 占 用 的 Undo 页 面 链表 要 么 被 重用 ， 要 么 被 释放 ) 。 
虽然 真正 的 insert undo 日 志 占 用 的 存储 空间 被 释放 了 ， 但 是 roll_ pointer 的 值 并 不 会 被 清除 ，roll] po 
inter 属 性 占用 7 个 字 节 ， 第 一 个 比特 位 就 标记 着 它 指 向 的 undo 日 志 的 类 型 ， 如 果 该 比特 位 的 值 为 1 时 ， 





























就 代表 着 它 zhi 向 的 undo 日 志 类 型 为 insert undo。 所 以 我 们 之 后 在 画图 时 都 会 把 insert undo 给 去 掉 ， 


大 家 留意 


一 下 就 好 了 。 


假设 之 后 两 个 事务 id 分 别 为 100 、 200 的 事务 对 这 条 记录 进行 UPDATE 操作 ， 操 作 流程 如 下 : 


中 


日 加 四 外因 人马 


@ 


小 贴 士 : 


BEGIN; 


BEGIN; 


UPDATE hero SET name = 关羽 ' WHERE number = 1; 


UPDATE hero SET name = ' 张 飞 WHERE number = 1; 


COMMIT 


UPDATE hero SET name = ' 赵 云 ' WHERE number = 1; 


UPDATE hero SET name = ' 诸 葛 亮 ' WHERE number = 1; 


COMMIT; 








能 不 能 在 两 个 事务 中 交叉 更 新 同一 条 记录 呢 ? 哈哈 ， 这 不 就 是 一 个 事务 修改 了 另 一 个 未 提交 事务 修改 过 
的 数据 ， 沦 为 了 脏 写 了 么 ? InnoDB 使 用 锁 来 保证 不 会 有 脏 写 情况 的 发 生 ， 也 就 是 在 第 一 个 事务 更 新 了 某 
条 记录 后 ， 就 会 给 这 条 记录 加 锁 ， 另 一 个 事务 再 次 更 新 时 就 需要 等 待 第 一 个 事务 提交 了 ， 把 锁 释 放 之 后 
才 可 以 继续 更 新 。 关 于 锁 的 更 多 细节 我 们 后 续 的 文章 中 再 踪 功 哈 一 




















每 次 对 记录 进行 改动 ， 都 会 记录 一 条 undo 日 志 ， 每 条 undo 日 志 也 都 有 一 个 roll_pointer 属性 ( INSERT 操作 
对 应 的 undo 日 志 没有 该 属性 ， 因 为 该 记录 并 没有 更 早 的 版 本 ) ， 可 以 将 这 些 undo 日 志 都 连 起 来 ， 串 成 一 个 链 
表 ， 所 以 现在 的 情况 就 像 下 图 一 样 : 


number name country trx_id roll_pointer 
这 个 是 页 面 中 的 记录 








“这 些 是 undo 日 志 | Dy 





对 该 记录 每 次 更 新 后 ， 都 会 将 旧 值 放 到 一 条 undo 日 志 中 ， 就 算是 该 记录 的 一 个 旧版 本 ， 
所 有 的 版 本 都 会 被 rol1_pointer 属性 连接 成 一 个 链表 ， 我 们 把 这 个 链表 称 之 为 版 本 链 





成 了 一 个 版 本 链 ” 


随 着 更 新 次 数 的 增多 ， 
， 版 本 链 的 头 节点 就 是 当 


前 记录 最 新 的 值 。 另 外 ， 每 个 版 本 中 还 包含 生成 该 版 本 时 对 应 的 事务 id ， 这 个 信息 很 重要 ， 我 们 稍 后 就 会 用 


到 。 


24.3.2 ReadView 


对 于 使 用 READ UNCOMMITTED 隔离 级 别 的 事务 来 说 ， 由 于 可 以 读 到 未 提交 事务 修改 过 的 记录 ， 所 以 直接 读 取 记录 
的 最 新 版 本 就 好 了 ; 对 于 使 用 SERIALIZABLE 隔离 级 别 的 事务 来 说 ， 设 计 InnoDB 的 大 叔 规 定 使 用 加 锁 的 方式 来 访 
问 记 录 (加 锁 是 喻 我 们 后 续 文 章 中 说 哈 ) ; 对 于 使 用 READ COMMITTED 和 REPEATABLE READ 隔离 级 别 的 事务 来 
说 ， 都 必须 保证 读 到 已 经 提交 了 的 事务 修改 过 的 记录 ， 也 就 是 说 假如 另 一 个 事务 已 经 修改 了 记录 但 是 尚未 提交 ， 
是 不 能 直接 读 取 最 新 版 本 的 记录 的 ， 核 心 问题 就 是 : 需要 判断 一 下 版 本 链 中 的 哪个 版 本 是 当前 事务 可 见 的。 为 
此 ,设计 InnoDB 的 大 叔 提 出 了 一 个 ReadView 的 概念 ， 这 个 ReadView 中 主要 包含 4 个 比较 重要 的 内 容 : 


。 m_ids : 表示 在 生成 ReadView 时 当前 系统 中 活跃 的 读 写 事务 的 事务 id 列表 。 


。 min_trx_id : 表示 在 生成 ReadView 时 当前 系统 中 活跃 的 读 写 事务 中 最 小 的 事务 id ， 也 就 是 m_ids 中 的 最 


小 值 。 
。 max_trx_id : 表示 生成 ReadView 时 系统 中 应 该 分 配给 下 一 个 事务 的 id 值 。 
小 贴 士 : 
注意 max trx id 并 不 是 m ids 中 的 最 大 值 ， 事 务 id 是 递增 分 配 的 。 比 方 说 现在 














个 事务 ， 之 后 id 为 3 的 事务 提交 了 。 那 么 一 个 新 的 读 事 务 在 生成 ReadView 时 ，m i 


n trx id 的 值 就 是 1，max_trx_id 的 值 就 是 4。 
。 creator trx id : 表示 生成 该 ReadView 的 事务 的 事务 id 。 


小 贴 士 : 

















id 为 1，2，3 这 三 








ds 就 包括 1 和 2，mi 


我 们 前 边 说 过 ， 只 有 在 对 表 中 的 记录 做 改动 时 (执行 INSERT、DELETE、UPDATE 这 些 语句 时 ) 才 会 








为 事务 分 配 事务 id， 否 则 在 一 个 只 读 事务 中 的 事务 id 值 都 默认 为 0。 


有 了 这 个 ReadView ， 这 样 在 访问 某 条 记录 时 ， 只 需要 按照 下 边 的 步骤 判断 记录 的 某 个 版 本 是 否 可 见 : 


。 如 果 被 访问 版 本 的 trx_id 属性 值 与 ReadView 中 的 creator_trx_id 值 相同 ， 意 味 着 当前 事务 在 访问 它 自 己 


修改 过 的 记录 ， 所 以 该 版 本 可 以 被 当前 事务 访问 。 


。 如 果 被 访问 版 本 的 trx_id 属性 值 小 于 ReadView 中 的 min_trx_id 值 ， 表 明生 成 该 版 本 的 事务 在 当前 事务 生 
成 ReadView 前 已 经 提交 ， 所 以 该 版 本 可 以 被 当前 事务 访问 。 

。 如 果 被 访问 版 本 的 trx_id 属性 值 大 于 ReadView 中 的 max_trx_id 值 ， 表 明生 成 该 版 本 的 事务 在 当前 事务 生 
成 ReadView 后 才 开启 ， 所 以 该 版 本 不 可 以 被 当前 事务 访问 。 

。 如 果 被 访问 版 本 的 trx_id 属性 值 在 ReadView 的 min_trx_id 和 max_trx_id 之 间 ， 那 就 需要 判断 一 下 
trx_id 属性 值 是 不 是 在 m_ids 列表 中 ， 如 果 在 ， 说 明 创建 ReadView 时 生成 该 版 本 的 事务 还 是 活跃 的 ， 该 
版 本 不 可 以 被 访问 ; 如 果 不 在 ， 说 明 创建 ReadView 时 生成 该 版 本 的 事务 已 经 被 提交 ， 该 版 本 可 以 被 访问 。 


如 果 某 个 版 本 的 数据 对 当前 事务 不 可 见 的 话 ， 那 就 顺 着 版 本 链 找到 下 一 个 版 本 的 数据 ， 继 续 按照 上 边 的 步骤 判断 
可 见 性 ， 依 此 类 推 ， 直 到 版 本 链 中 的 最 后 一 个 版 本 。 如 果 最 后 一 个 版 本 也 不 可 见 的 话 ， 那 么 就 意味 着 该 条 记录 对 
该 事务 完全 不 可 见 ， 查 询 结果 就 不 包含 该 记录 。 


在 MySQL 中 ， READ COMMITTED 和 REPEATABLE READ 隔离 级 别 的 的 一 个 非常 大 的 区 别 就 是 它们 生成 ReadView 的 
时 机 不 同 。 我 们 还 是 以 表 hero 为 例 来 ， 假 设 现 在 表 hero 中 只 有 一 条 由 事务 id 为 80 的 事务 插入 的 一 条 记录 : 





mysql> SELECT x*¥ FROM hero; 





| number | name | country | 
| 








| 1 | 刘备 | 蜀 | 





1 row in set (0.07 sec) 


接 下 来 看 一 下 READ COMMITTED 和 REPEATABLE READ 所 谓 的 生成 ReadView 的 时 机 不 同 到 底 不 同 在 哪里 。 


24.3.2.1 READ COMMITTED 一 一 每 次 读 取 数据 前 都 生成 一 个 ReadView 
比方 说 现在 系统 里 有 两 个 事务 id 分 别 为 100 、 200 的 事务 在 执行 : 





# Transaction 100 
BEGIN ; 


UPDATE hero SET name =“ 关 羽 ”WHERE number = 


| 
pa 


UPDATE hero SET name = “ 张 &” WHERE number = 


| 
Ez 


# Transaction 200 
BEGIN:; 





# 更 新 了 一 些 别 的 表 的 记录 





小 贴 士 : 

再 次 强调 一 遍 ， 事 务 执行 过 程 中 ， 只 有 在 第 一 次 真正 修改 记录 时 《比如 使 用 INSERT、DELETE、UPDATE 语 
句 ) ， 才 会 被 分 配 一 个 单独 的 事务 id， 这 个 事务 id 是 递增 的 。 所 以 我 们 才 在 Transaction 200 中 更 新 
些 别 的 表 的 记录 ， 目 的 是 让 它 分 配 事务 id。 


此 刻 ， 表 hero 中 number 为 1 的 记录 得 到 的 版 本 链表 如 下 所 示 : 






















































































number name country trx_id roll_pointer 


一 一 


“这 个 是 页 面 中 的 记录 


| “惠威 了 一 个 版 本 链 


“这 些 是 undoB 志 








假设 现在 有 一 个 使 用 READ COMMITTED 隔离 级 别 的 事务 开始 执行 : 


# 使 用 READ COMMITTED 隔 离 级 别 的 事务 
BEGIN: 





# SELECT1: Transaction 100、200 未 提交 
SELECT x* FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 ' 刘备 


这 个 SELECT1 的 执行 过 程 如 下 : 


。 在 执行 SELECT 语句 时 会 先生 成 一 个 ReadView ， ReadView 的 m_ids 列表 的 内 容 就 是 [100，200] ， 

min trx id 为 100 ，max trx id 为 201 ，creator trx id 为 0。 

然后 从 版 本 链 中 挑选 可 见 的 记录 ， 从 图 中 可 以 看 出 ， 最 新 版 本 的 列 name 的 内 容 是 ” 张 飞 ”， 该 版 本 的 
trx_id 值 为 100 ， 在 m_ids 列表 内 ， 所 以 不 符合 可 见 性 要 求 ， 根 据 ro11_pointer 跳 到 下 一 个 版 本 。 

下 一 个 版 本 的 列 name 的 内 容 是 关羽 ”， 该 版 本 的 trx_id 值 也 为 100 ， 也 在 m_ids 列表 内 ， 所 以 也 不 符 
合 要 求 ， 继 续 跳 到 下 一 个 版 本 。 

下 一 个 版 本 的 列 name 的 内 容 是 "刘备 ”， 该 版 本 的 trx_id 值 为 80 ， 小 于 ReadView 中 的 min_trx_id 值 
100 ， 所 以 这 个 版 本 是 符合 要 求 的 ， 最 后 返回 给 用 户 的 版 本 就 是 这 条 列 name 为 “刘备 ”的 记录 。 


之 后 ， 我 们 把 事务 id 为 100 的 事务 提交 一 下 ， 就 像 这 样 : 


# Transaction 100 
BEGIN ; 


UPDATE hero SET name =“ 关 羽 ” WHERE number = 


| 
让 


UPDATE hero SET name =“ 张 飞 WHERE number = 1; 


COMMIT; 
然后 再 到 事务 id 为 200 的 事务 中 更 新 一 下 表 hero 中 number 为 1 的 记录 : 


# Transaction 200 
BEGIN; 





# 更 新 了 一 些 别 的 表 的 记录 


UPDATE hero SET name = “赵云 ”WHERE number = 1; 


UPDATE hero SET name =“ 诸 万 亮 WHERE number = 1; 


此 刻 ， 表 hero 中 number 为 1 的 记录 的 版 本 链 就 长 这 样 : 


number name country trx_id roll_pointer 
EC 要 有 
(这 个 是 页 面 中 的 记录 ， 1 。 诸葛亮。 恒 











1 "赵云 蜀 200 
一 ET 
一 : 
1 | 100 — 
这些 是 undoB 志 
全 关羽 蜀 100 
al "刘备 ' 绚 80 





然后 再 到 刚才 使 用 READ COMMITTED 隔离 级 别 的 事务 中 继续 查找 这 个 number 为 1 的 记录 ， 如 下 : 











# 使 用 READ COMMITTED 隔 离 级 别 的 事务 
BEGIN; 





# SELECT1: Transaction 100、200 均 未 提交 
SELECT x* FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 刘备 


# SELECT2: Transaction 100 提 交 ，Transaction 200 未 提交 
SELECT x* FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 * 张 飞 * 


这 个 SELECT2 的 执行 过 程 如 下 : 


。 在 执行 SELECT 语句 时 会 又 会 单独 生成 一 个 ReadView， 该 ReadView 的 m_ids 列表 的 内 容 就 是 [200] ( 事 


务 id 为 100 的 那个 事务 已 经 提交 了 ， 所 以 再 次 生成 快照 时 就 没有 它 了 ) ， min_trx_id 为 200 ， 
max trx id 为 201 ，creator trx id 为 0。 

。 然后 从 版 本 链 中 挑选 可 见 的 记录 ， 从 图 中 可 以 看 出 ， 最 新 版 本 的 列 name 的 内 容 是 诸葛亮 ， 该 版 本 的 
trx_id 值 为 200， 在 m_ids 列表 内 ， 所 以 不 符合 可 见 性 要 求 ， 根 据 ro11_pointer 跳 到 下 一 个 版 本 。 

。 下 一 个 版 本 的 列 name 的 内 容 是 “赵云 ”， 该 版 本 的 trx_id 值 为 200 ， 也 在 m_ids 列表 内 ， 所 以 也 不 符合 
要 求 ， 继 续 跳 到 下 一 个 版 本 。 


。 下 一 个 版 本 的 列 name 的 内 容 是 ` 张 飞 ， 该 版 本 的 trx_id 值 为 100 ， 小 于 ReadView 中 的 min_trx_id 值 


200 ， 所 以 这 个 版 本 是 符合 要 求 的 ， 最 后 返回 给 用 户 的 版 本 就 是 这 条 列 name 为 “ 张 飞 ” 的 记录 。 
以 此 类 推 ， 如 果 之 后 事务 id 为 200 的 记录 也 提交 了 ， 再 此 在 使 用 READ COMMITTED 隔离 级 别 的 事务 中 查询 表 


hero 中 number 值 为 1 的 记录 时 ， 得 到 的 结果 就 是 “诸葛亮 了， 具体 流程 我 们 就 不 分 析 了 。 总 结 一 下 就 是 : 使 


用 READ COMMITTED 隔 离 级 别 的 事务 在 每 次 查询 开始 时 都 会 生成 一 个 独立 的 ReadView。 


24.3.2.2 REPEATABLE READ 一 一 在 第 一 次 读 取 数据 时 生成 一 个 ReadView 


对 于 使 用 REPEATABLE READ 隔离 级 别 的 事务 来 说， 只 会 在 第 一 次 执行 查询 语句 时 生成 一 个 ReadView ， 之 后 的 查 


询 就 不 会 重复 生成 了 。 我 们 还 是 用 例子 看 一 下 是 什么 效果 。 
比方 说 现在 系统 里 有 两 个 事务 id 分 别 为 100 、 200 的 事务 在 执行 : 


# Transaction 100 
BEGIN ; 


UPDATE hero SET name =“ 关 羽 ”WHERE number = 1; 


UPDATE hero SET name =“ 张 飞 WHERE number = 1; 


# Transaction 200 
BEGIN ; 





# 更 新 了 一 些 别 的 表 的 记录 


此 刻 ， 表 hero 中 number 为 1 的 记录 得 到 的 版 本 链表 如 下 所 示 : 














number name country trx_id roll_pointer 
这 个 是 页 面 中 的 记录 
A 
。 串 成 了 一 个 版 本 链 
1 E> ' 蜀 ' 100 下 
这些 是 undo 日 志 - py 
| 刘备 ' 蜀 80 


假设 现在 有 一 个 使 用 REPEATABLE READ 隔离 级 别 的 事务 开始 执行 : 





# 使 用 REPEATABLE READ 隔 离 级 别 的 事务 
BEGIN; 


# SELECT1: Transaction 100、200 未 提交 
SELECT x* FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 刘备 


这 个 SELECT1 的 执行 过 程 如 下 : 


。 在 执行 SELECT 语句 时 会 先生 成 一 个 ReadView ， ReadView 的 m_ids 列表 的 内 容 就 是 [100，200] ， 

min trx id 为 100 ，max trx id 为 201 ，creator trx id 为 0。 

然后 从 版 本 链 中 挑选 可 见 的 记录 ， 从 图 中 可 以 看 出 ， 最 新 版 本 的 列 name 的 内 容 是 “ 张 飞 ， 该 版 本 的 
trx_id 值 为 100 ， 在 m_ids 列表 内 ， 所 以 不 符合 可 见 性 要 求 ， 根 据 ro11_pointer 跳 到 下 一 个 版 本 。 

下 一 个 版 本 的 列 name 的 内 容 是 关羽 ”， 该 版 本 的 trx_id 值 也 为 100 ， 也 在 m_ids 列表 内 ， 所 以 也 不 符 
合 要 求 ， 继 续 跳 到 下 一 个 版 本 。 

下 一 个 版 本 的 列 name 的 内 容 是 刘备”， 该 版 本 的 trx_id 值 为 80 ， 小 于 ReadView 中 的 min_trx id 值 
100 ， 所 以 这 个 版 本 是 符合 要 求 的 ， 最 后 返回 给 用 户 的 版 本 就 是 这 条 列 name 为 刘备 ”的 记录 。 


之 后 ， 我 们 把 事务 id 为 100 的 事务 提交 一 下 ， 就 像 这 样 : 


# Transaction 100 
BEGIN ; 


UPDATE hero SET name =“ 关 羽 ”WHERE number = 


| 
A 


UPDATE hero SET name = 张 &” WHERE number 


ll 
jk 


COMMIT; 
然后 再 到 事务 id 为 200 的 事务 中 更 新 一 下 表 hero 中 number 为 1 的 记录 : 


# Transaction 200 
BEGIN ; 


# 更 新 了 一 些 别 的 表 的 记录 


UPDATE hero SET name = “赵云 ”WHERE number = 1; 


二 


UPDATE hero SET name =“ 诸 葛 亮 ”WHERE number = 1; 


此 刻 ， 表 hero 中 number 为 1 的 记录 的 版 本 链 就 长 这 样 : 


number name country trx_id roll_pointer 
和 上 ' 蜀 ' 200 
这 个 是 页 面 中 的 记录 1 hes i 
| 赵云 导 200 


ll 张 飞 ' ' 蜀 ' 100 串 成 了 一 个 版 本 链 


1 "刘备 ' ' 绚 80 


然后 再 到 刚才 使 用 REPEATABLE READ 隔离 级 别 的 事务 中 继续 查找 这 个 number 为 1 的 记录 ， 如 下 : 


# 使 用 REPEATABLE READ 隔 离 级 别 的 事务 
BEGIN; 


# SELECT1: Transaction 100、200 均 未 提交 
SELECT x* FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 为 ' 刘备 * 


# SELECT2: Transaction 100 提 交 ，Transaction 200 未 提交 
SELECT x* FROM hero WHERE number = 1; # 得 到 的 列 name 的 值 仍 为 * 刘备 ” 


这 个 SELECT2 的 执行 过 程 如 下 : 


因为 当前 事务 的 隔离 级 别 为 REPEATABLE READ ， 而 之 前 在 执行 SELECT1 时 已 经 生成 过 ReadView 了 ， 所 以 此 
时 直接 复 用 之 前 的 ReadView ， 之 前 的 ReadView 的 m ids 列表 的 内 容 就 是 [100，200] ， min trx id 为 
100 ，max trx id 为 201 ，creator trx id 为 0。 

然后 从 版 本 链 中 挑选 可 见 的 记录 ， 从 图 中 可 以 看 出 ， 最 新 版 本 的 列 name 的 内 容 是 “诸葛 亮 ”， 该 版 本 的 
trx_id 值 为 200 ， 在 m_ids 列表 内 ， 所 以 不 符合 可 见 性 要 求 ， 根 据 roll_pointer 跳 到 下 一 个 版 本 。 

下 一 个 版 本 的 列 name 的 内 容 是 赵云”， 该 版 本 的 trx_id 值 为 200 ， 也 在 m_ids 列表 内 ， 所 以 也 不 符合 
要 求 ， 继 续 跳 到 下 一 个 版 本 。 

下 一 个 版 本 的 列 name 的 内 容 是 ” 张 飞 ”， 该 版 本 的 trx_id 值 为 100 ， 而 m_ids 列表 中 是 包含 值 为 100 的 
事务 id 的 ， 所 以 该 版 本 也 不 符合 要 求 ， 同 理 下 一 个 列 name 的 内 容 是 关羽 ”的 版 本 也 不 符合 要 求 。 继 续 跳 
到 下 一 个 版 本 。 

下 一 个 版 本 的 列 name 的 内 容 是 刘备 ”， 该 版 本 的 trx_id 值 为 80 ， 小 于 ReadView 中 的 min_trx_id 值 
100 ， 所 以 这 个 版 本 是 符合 要 求 的 ， 最 后 返回 给 用 户 的 版 本 就 是 这 条 列 “ 为 “刘备 ”的 记录 。 


也 就 是 说 两 次 SELECT 查询 得 到 的 结果 是 重复 的 ， 记 录 的 列 “ 值 都 是 刘备”， 这 就 是 可 重复 读 的 含义 。 如 果 我 
们 之 后 再 把 事务 id 为 200 的 记录 提交 了 ， 然 后 再 到 刚才 使 用 REPEATABLE READ 隔离 级 别 的 事务 中 继续 查找 这 
个 number 为 1 的 记录 ， 得 到 的 结果 还 是 刘备”， 具 体 执行 过 程 大 家 可 以 自己 分 析 一 下 。 








24.3.3 MVCC 小 结 


从 上 边 的 描述 中 我 们 可 以 看 出 来 ， 所 谓 的 MVCC (Multi-Version Concurrency Control ， 多 版 本 并 发 控制 ) 指 的 就 
是 在 使 用 READ COMMITTD 、 REPEATABLE READ 这 两 种 隔离 级 别 的 事务 在 执行 普通 的 SEELCT 操作 时 访问 记录 的 版 
本 链 的 过 程 ， 这 样子 可 以 使 不 同事 务 的 读 - 写 、 写 - 读 操作 并 发 执行 ， 从 而 提升 系统 性 能 。 READ COMMITTD 、 
REPEATABLE READ 这 两 个 隔离 级 别 的 一 个 很 大 不 同 就 是 : 生成 ReadView 的 时 机 不 同 ，READ COMMITTD 在 每 一 
次 进行 普通 SELECT 操 作 前 都 会 生成 一 个 ReadView， 而 REPEATABLE READ 只 在 第 一 次 进行 普通 SELECT 操作 
前 生成 一 个 ReadView， 之 后 的 查询 操作 都 重复 使 用 这 个 ReadView 就 好 了 。 


小 贴 士 : 

我 们 之 前 说 执行 DELETE 语 句 或 者 更 新 主键 的 UPDATE 语 句 并 不 会 立即 把 对 应 的 记录 完全 从 页 面 中 删除 ， 而 
是 执行 一 个 所 谓 的 delete mark 操 作 ， 相 当 于 只 是 对 记录 打上 了 一 个 删除 标志 位 ， 这 主要 就 是 为 MVCC 服 
务 的 ， 大 家 可 以 对 比 上 边 举 的 例子 自己 试想 一 下 怎么 使 用 。 
另外 ， 所 谓 的 MVCC 只 是 在 我 们 进行 普通 的 SEELCT 查 询 时 才 生 效 ， 截 止 到 目前 我 们 所 见 的 所 有 SELECT 语句 
都 算是 普通 的 查询 ， 至 于 啥 是 个 不 普通 的 查询 ， 我 们 稍 后 再 说 哈 一 


















































































































































24.4 关于 purge 
大 家 有 没有 发 现 两 件 事 儿 : 


。 我 们 说 insert undo 在 事务 提交 之 后 就 可 以 被 释放 掉 了 ， 而 update undo 由 于 还 需要 支持 MVCC ， 不 能 立即 
删除 掉 。 
。 为 了 支持 MYCC ， 对 于 delete mark 操作 来 说 ， 仅 仅 是 在 记录 上 打 一 个 删除 标记 ， 并 没有 真正 将 它 删 除 掉 。 


随 着 系统 的 运行 ， 在 确定 系统 中 包含 最 早产 生 的 那个 ReadView 的 事务 不 会 再 访问 某 些 update undo 日 志 以 及 被 
打 了 删除 标记 的 记录 后 ， 有 一 个 后 台 运 行 的 purge 线 程 会 把 它们 真正 的 删除 掉 。 关 于 更 多 的 purge 细 节 ， 我 们 将 
放 到 纸 质 书 中 进行 详细 啼 明 ， 不 见 不 散 哈 ~ 


25 第 25 章 工作 面试 老大 难 - 锁 


标签 : MySQL 是 怎样 运行 的 





25.1 解决 并 发 事务 市 来 问题 的 两 种 基本 方式 


上 一 章 路 归 了 事务 并 发 执行 时 可 能 带 来 的 各 种 问题 ， 并 发 事务 访问 相同 记录 的 情况 大 致 可 以 划分 为 3 种 : 
。 读 - 读 情况 : 即 并 发 事务 相继 读 取 相 同 的 记录 。 


读 取 操 作 本 身 不 会 对 记录 有 一 毛 钱 影响 ， 并 不 会 引起 什么 问题 ， 所 以 允许 这 种 情况 的 发 生 。 
写 - 写 情况 : 即 并 发 事务 相继 对 相同 的 记录 做 出 改动 。 


我 们 前 边 说 过 ， 在 这 种 情况 下 会 发 生 脏 写 的 问题 ， 任 何 一 种 隔离 级 别 都 不 允许 这 种 问题 的 发 生 。 所 以 在 多 
个 未 提交 事务 相继 对 一 条 记录 做 改动 时 ， 需 要 让 它们 排队 执行 ， 这 个 排队 的 过 程 其 实 是 通过 锁 来 实现 的 。 
这 个 所 谓 的 锁 其 实 是 一 个 内 存 中 的 结构 ， 在 事务 执行 前 本 来 是 没有 锁 的 ， 也 就 是 说 一 开始 是 没有 锁 结构 和 
记录 进行 关联 的 ， 如 图 所 示 : 


这 是 一 条 记录 





当 一 个 事务 想 对 这 条 记录 做 改动 时 ， 首 先 会 看 看 内 存 中 有 没有 与 这 条 记录 关联 的 锁 结 构 ， 当 没有 的 时 候 就 
会 在 内 存 中 生成 一 个 锁 结 构 与 之 关联 。 比 方 说 事务 T1 要 对 这 条 记录 做 改动 ， 就 需要 生成 一 个 锁 结 构 与 之 
关联 : 


trx 信 息 : wl 
这 是 一 条 记录 i 
IS waiting : false 





其 实在 锁 结构 里 有 很 多 信息 ， 不 过 为 了 简化 理解 ， 我 们 现在 只 把 两 个 比较 重要 的 属性 拿 了 出 来 : 
" trx 信 息 : 代表 这 个 锁 结构 是 哪个 事务 生成 的 。 
is_waiting : 代表 当前 事务 是 否 在 等 待 。 


如 图 所 示 ， 当 事务 T1 改动 了 这 条 记录 后 ， 就 生成 了 一 个 锁 结构 与 该 记录 关联 ， 因 为 之 前 没有 别 的 事务 
为 这 条 记录 加 锁 ， 所 以 is_waiting 属性 就 是 false ， 我 们 把 这 个 场景 就 称 之 为 获取 锁 成 功 ， 或 者 加 锁 
成 功 ， 然 后 就 可 以 继续 执行 操作 了 。 


在 事务 T1 提交 之 前 ， 另 一 个 事务 T2 也 想 对 该 记录 做 改动 ， 那 么 先 去 看 看 有 没有 锁 结 构 与 这 条 记录 关 
联 ， 发 现 有 一 个 锁 结构 与 之 关联 后 ， 然 后 也 生成 了 一 个 锁 结构 与 这 条 记录 关联 ， 不 过 锁 结 构 的 
is_waiting 属性 值 为 true ， 表 示 当 前 事务 需要 等 待 ， 我 们 把 这 个 场景 就 称 之 为 获取 锁 失 败 ， 或 者 加 锁 


失败 ， 或 者 没有 成 功 的 获取 到 锁 ， 画 个 图 表示 就 是 这 样 : 


获取 锁 成 功 ， 事 务 继续 运行 


trx 信 息 : T1 


这 是 一 条 记录 


Is_Walting : false 





trx 信 息 : 1 


E11 Te 





获取 锁 失 败 ， 事 务 开始 等 待 上 


在 事务 T1 提交 之 后 ， 就 会 把 该 事务 生成 的 锁 结 构 释放 掉 ， 然 后 看 看 还 有 没有 别 的 事务 在 等 待 获取 锁 ， 
发 现 了 事务 T2 还 在 等 待 获取 锁 ， 所 以 把 事务 T2 对 应 的 锁 结构 的 is_waiting 属性 设置 为 false ， 然 后 
把 该 事务 对 应 的 线程 唤醒 ， 让 它 继续 执行 ， 此 时 事务 T2 就 算 获 取 到 锁 了 。 效 果 图 就 是 这 样 : 


trx 信 息 : T2 
这 是 一 条 记录 本 
IS_Walting :false 


我 们 总 结 一 下 后 续 内 容 中 可 能 用 到 的 几 种 说 法 ， 以 免 大 家 混淆 : 





”不 加 锁 


意思 就 是 不 需要 在 内 存 中 生成 对 应 的 锁 结构 ， 可 以 直接 执行 操作 。 


” 获取 锁 成 功 ， 或 者 加 锁 成 功 


意思 就 是 在 内 存 中 生成 了 对 应 的 锁 结构 ， 而 且 锁 结构 的 is_waiting 属性 为 false ， 也 就 是 事务 可 以 
继续 执行 操作 。 


” 获取 锁 失 败 ， 或 者 加 锁 失 败 ， 或 者 没有 获取 到 锁 


读 


意思 就 是 在 内 存 中 生成 了 对 应 的 锁 结 构 ， 不 过 锁 结构 的 is_waiting 属性 为 true ， 也 就 是 事务 需要 等 
待 ， 不 可 以 继续 执行 操作 。 

小 由 士 : 

这 里 只 是 对 锁 结 构 做 了 一 个 非常 简单 的 描述 ， 我 们 后 边 会 详细 踪 叫 路 明 锁 结构 的 ， 稍 安 勿 躁 。 








读 - 写 或 写 - 读 情况 : 也 就 是 一 个 事务 进行 读 取 操作 ， 另 一 个 进行 改动 操作 。 





我 们 前 边 说 过 ， 这 种 情况 下 可 能 发 生 脏 读 、 不 可 重复 读 、 幻 读 的 问题 。 


小 贴 士 : 
幻 读 问 题 的 产生 是 因为 某 个 事务 读 了 一 个 范围 的 记录 ， 之 后 别 的 事务 在 该 范围 内 插入 了 新 记录 ， 
该 事务 再 次 读 取 该 范围 的 记录 时 ， 可 以 读 到 新 插入 的 记录 ， 所 以 幻 读 问 题 准 确 的 说 并 不 是 因为 读 取 
和 写 入 一 条 相同 记录 而 产生 的 ， 这 一 点 要 注意 一 下 。 




































































SQL 标准 规定 不 同 隔离 级 别 下 可 能 发 生 的 问题 不 一 样 : 


在 READ UNCOMMITTED 隔离 级 别 下 ， 脏 读 、 不 可 重复 读 、 幻 读 都 可 能 发 生 。 

在 READ COMMITTED 隔离 级 别 下 ， 不 可 重复 读 、 幻 读 可 能 发 生 ， 脏 读 不 可 以 发 生 。 
在 REPEATABLE READ 隔离 级 别 下 ， 约 读 可 能 发 生 ， 脏 读 和 不 可 重复 读 不 可 以 发 生 。 
在 SERIALIZABLE 隔离 级 别 下 ， 上 述 问 题 都 不 可 以 发 生 。 


不 过 各 个 数据 库 厂 商 对 SQL 标准 的 支持 都 可 能 不 一 样 ， 与 SQL 标准 不 同 的 一 点 就 是 ， MySQL 在 
REPEATABLE READ 隔离 级 别 实际 上 就 已 经 解决 了 幻 读 问题 。 


























怎么 解决 脏 读 、 不 可 重复 读 、 幻 读 这 些 问 题 呢 ? 其 实 有 两 种 可 选 的 解决 方案 : 
方案 一 : 读 操 作 利用 多 版 本 并 发 控制 ( MVCC ) ， 写 操作 进行 加 锁 。 


所 谓 的 MVCC 我 们 在 前 一 章 有 过 详细 的 描述 ， 就 是 通过 生成 一 个 ReadView ， 然 后 通过 ReadView 找到 符 
合 条 件 的 记录 版 本 (历史 版 本 是 由 undo 日 志 构建 的 ， 其 实 就 像 是 在 生成 ReadView 的 那个 时 刻 做 了 一 
次 时 间 静 止 _( 就 像 用 相机 拍 了 一 个 快照 ， 查 询 语句 只 能 读 到 在 生成 ReadView 之 前 已 提交 事务 所 做 的 
更 改 ， 在 生成 ReadView 之 前 未 提交 的 事务 或 者 之 后 才 开启 的 事务 所 做 的 更 改 是 看 不 到 的 。 而 写 操作 肯 
定 针对 的 是 最 新 版 本 的 记录 ， 读 记录 的 历史 版 本 和 改动 记录 的 最 新 版 本 本 身 并 不 冲突 ， 也 就 是 采用 
WVCC 时 ， 读 - 写 操作 并 不 冲突 。 


小 贴 士 : 

我 们 说 过 普通 的 SELECT 语句 在 READ COMMITTED 和 REPEATABLE READ 隔 离 级 别 下 会 使 用 到 MVCC 
读 取 记 录 。 在 READ COMMITTED 隔 离 级 别 下 ， 一 个 事务 在 执行 过 程 中 每 次 执行 SELECT 操作 时 都 会 
生成 一 个 ReadView，ReadView 的 存在 本 身 就 保证 了 事务 不 可 以 读 取 到 未 提交 的 事务 所 做 的 更 
改 ， 也 就 是 避免 了 脏 读 现象 ，REPEATABLE READ 隔 离 级 别 下 ， 一 个 事务 在 执行 过 程 中 只 有 第 
次 执行 SELECT 操 作 才 会 生成 一 个 ReadView， 之 后 的 SELECT 操 作 都 复 用 这 个 ReadView， 这 样 也 就 
避免 了 不 可 重复 读 和 幻 读 的 问题 。 


方案 二 : 读 、 写 操作 都 采用 加 锁 的 方式 。 


如 果 我 们 的 一 些 业务 场景 不 允许 读 取 记录 的 旧版 本 ， 而 是 每 次 都 必须 去 读 取 记录 的 最 新 版 本 ， 比 方 在 银 
行 存款 的 事务 中 ， 你 需要 先 把 账户 的 余额 读 出 来 ， 然 后 将 其 加 上 本 次 存款 的 数额 ， 最 后 再 写 到 数据 库 
中 。 在 将 账户 余额 读 取出 来 后 ， 就 不 想 让 别 的 事务 再 访问 该 余额 ， 直 到 本 次 存款 事务 执行 完成 ， 其 他 事 
务 才 可 以 访问 账户 的 余额 。 这 样 在 读 取 记录 的 时 候 也 就 需要 对 其 进行 加 锁 操作 ， 这 样 也 就 意味 着 读 操 
作 和 写 操作 也 像 写 - 写 操作 那样 排队 执行 。 


小 贴 士 : 

我 们 说 脏 读 的 产生 是 因为 当前 事务 读 取 了 另 一 个 未 提交 事务 写 的 一 条 记录 ， 如 果 另 一 个 事务 
在 写 记 录 的 时 候 就 给 这 条 记录 加 锁 ， 那 么 当前 事务 就 无 法 继续 读 取 该 记录 了 ， 所 以 也 就 不 会 有 
脏 读 问题 的 产生 了 。 不 可 重复 读 的 产生 是 因为 当前 事务 先 读 取 一 条 记录 ， 另 外 一 个 事务 对 该 记 
录 做 了 改动 之 后 并 提交 之 后 ， 当 前 事务 再 次 读 取 时 会 获得 不 同 的 值 ， 如 果 在 当前 事务 读 取 记 录 
时 就 给 该 记录 加 锁 ， 那 么 另 一 个 事务 就 无 法 修改 该 记录 ， 自 然 也 不 会 发 生 不 可 重复 读 了 。 我 们 
说 幻 读 问题 的 产生 是 因为 当前 事务 读 取 了 一 个 范围 的 记录 ， 然 后 另外 的 事务 向 该 范围 内 插入 了 
新 记录 ， 当 前 事务 再 次 读 取 该 范围 的 记录 时 发 现 了 新 插入 的 新 记录 ， 我 们 把 新 插入 的 那些 记录 
称 之 为 幻影 记录 。 采 用 加 锁 的 方式 解决 幻 读 问题 就 有 那么 一 丢 于 麻烦 了 ， 因 为 当前 事务 在 第 一 
次 读 取 记 录 时 那些 幻影 记录 并 不 存在 ， 所 以 读 取 的 时 候 加 锁 就 有 点 槛 熔 一 一 因为 你 并 不 知道 
给 谁 加 锁 ， 没 关系 ， 这 难 不 倒 设 计 InnopB 的 大 叔 的 ， 我 们 稍 后 揭晓 答案 ， 稍 安 勿 躁 。 































































































































































































































































































































































































很 明显 ， 采 用 MVCC 方式 的 话 ， 读 - 写 操作 彼此 并 不 冲突 ， 性 能 更 高 ， 采 用 加 锁 方式 的 话 ， 读 - 写 操 
作 彼 此 需要 排队 执行 ， 影 响 性 能 。 一 般 情 况 下 我 们 当然 愿意 采用 MVCC 来 解决 读 - 写 操作 并 发 执行 的 问 
题 ， 但 是 业务 在 某 些 特殊 情况 下 ， 要 求 必须 采用 加 锁 的 方式 执行 ， 那 也 是 没有 办 法 的 事 。 


25.1.1 一 致 性 读 (Consistent Reads) 


事务 利用 MVCC 进行 的 读 取 操 作 称 之 为 一 致 性 读 ， 或 者 一 致 性 无 锁 读 ， 有 的 地 方 也 称 之 为 快照 读 。 所 有 普通 
的 SELECT 语句 ( plain SELECT ) 在 READ COMMITTED 、 REPEATABLE READ 隔离 级 别 下 都 算是 一 致 性 读 ， 比 方 
说 : 








SELECT x* FROM t; 
SELECT x* FROM tl INNER JOIN t2 ON tl.coll = t2.col2 


一 致 性 读 并 不 会 对 表 中 的 任何 记录 做 加 锁 操作 ， 其 他 事务 可 以 自由 的 对 表 中 的 记录 做 改动 。 
25.1.2 锁定 读 (Locking Reads) 


25.1.2.1 共享 锁 和 独占 锁 


我 们 前 边 说 过 ， 并 发 事务 的 读 - 读 情况 并 不 会 引起 什么 问题 ， 不 过 对 于 写 - 写 、 读 - 写 或 写 - 读 这 些 情况 可 能 
会 引起 一 些 问题 ， 需 要 使 用 MVCC 或 者 加 锁 的 方式 来 解决 它们 。 在 使 用 加 锁 的 方式 解决 问题 时 ， 由 于 既 要 允 
许 读 - 读 情况 不 受 影响 ， 又 要 使 写 - 写 、 读 - 写 或 写 - 读 情况 中 的 操作 相互 阻塞 ， 所 以 设计 MySQL 的 大 叔 给 锁 


分 了 个 类 : 























。 共享 锁 ， 英 文 名 : Shared Locks ， 简 称 S 锁 。 在 事务 要 读 取 一 条 记录 时 ， 需 要 先 获取 该 记录 的 S 锁 。 
。 独占 锁 ， 也 常 称 排他 锁 ， 英 文 名 : Exclusive Locks ， 简 称 X 锁 。 在 事务 要 改动 一 条 记录 时 ， 需 要 先 获 
取 该 记录 的 X 锁 。 


假如 事务 T1 首先 获取 了 一 条 记录 的 S 锁 之 后 ， 事 务 T2 接着 也 要 访问 这 条 记录 : 


。 如 果 事 务 T2 想 要 再 获取 一 个 记录 的 S 锁 ， 那 么 事务 T2 也 会 获得 该 锁 ， 也 就 意味 着 事务 T1 和 T2 在 该 记录 
上 同时 持 有 S 锁 。 
。 如 果 事 务 T2 想 要 再 获取 一 个 记录 的 X 锁 ， 那 么 此 操作 会 被 阻塞 ， 直 到 事务 T1 提交 之 后 将 $ 锁 释放 掉 。 


如 果 事 务 T1 首先 获取 了 一 条 记录 的 X 锁 之 后 ， 那 么 不 管事 务 T2 接着 想 获取 该 记录 的 S 锁 还 是 X 钱 都 会 被 阻 
塞 ， 直 到 事务 T1 提交 。 


所 以 我 们 说 S 锁 和 $ 锁 是 兼容 的 ， S 锁 和 X 锁 是 不 兼容 的 ， X 锁 和 X 锁 也 是 不 兼容 的 ， 画 个 表 表 示 一 下 就 是 这 
样 : 


25.1.2.2 锁定 读 的 语句 
我 们 前 边 说 在 采用 加 锁 方式 解决 脏 读 、 不 可 重复 读 、 幻 读 这 些 问 题 时 ， 读 取 一 条 记录 时 需要 获取 一 下 该 记 
录 的 S$ 锁 ， 其 实 这 是 不 严谨 的 ， 有 时 候 想 在 读 取 记 录 时 就 获取 记录 的 X 锁 ， 来 禁止 别 的 事务 读 写 该 记录 ， 为 此 设 
计 MySQL 的 大 叔 提 出 了 两 种 比较 特殊 的 SELECT 语句 格式 : 

。 对 读 取 的 记录 加 S 锁 : 


SELECT ... LOCK IN SHARE MODE 


也 就 是 在 普通 的 SELECT 语句 后 边 加 LOCK IN SHARE MODE ， 如 果 当 前 事务 执行 了 该 语句 ， 那 么 它 会 为 读 取 到 
的 记录 加 S 锁 ， 这 样 允 许 别 的 事务 继续 获取 这 些 记录 的 S 锁 (比方 说 别 的 事务 也 使 用 SELECT ... LOCK IN 
SHARE MODE 语句 来 读 取 这 些 记录 ) ， 但 是 不 能 获取 这 些 记 录 的 X 锁 (比方 说 使 用 SELECT ... FOR UPDATE 
语句 来 读 取 这 些 记 录 ， 或 者 直接 修改 这 些 记录 ) 。 如 果 别 的 事务 想 要 获取 这 些 记录 的 X 锁 ， 那 么 它们 会 阻 
塞 ， 直 到 当前 事务 提交 之 后 将 这 些 记录 上 的 S 锁 释放 掉 。 

对 读 取 的 记录 加 X 锁 : 


SELECT ... FOR UPDATE; 


也 就 是 在 普通 的 SELECT 语句 后 边 加 FOR UPDATE ， 如 果 当 前 事务 执行 了 该 语句 ， 那 么 它 会 为 读 取 到 的 记录 
加 X 锁 ， 这 样 既 不 允许 别 的 事务 获取 这 些 记录 的 S 锁 “(比方 说 别 的 事务 使 用 SELECT ... LOCK IN SHARE 
MODE 语句 来 读 取 这 些 记录 ) ， 也 不 允许 获取 这 些 记录 的 X 锁 (比方 也 说 使 用 SELECT .. .FOR UPDATE 语句 
来 读 取 这 些 记录 ,或 者 直接 修改 这 些 记 录 ) 。 如 果 别 的 事务 想 要 获取 这 些 记录 的 S 锁 或 者 X 锁 ， 那 么 它们 会 
阻塞 ， 直 到 当前 事务 提交 之 后 将 这 些 记录 上 的 x 锁 释放 掉 。 


关于 更 多 锁定 读 的 加 锁 细节 我 们 稍 后 会 详细 啼 明 ， 稍 安 勿 躁 。 


25.1.3 写 操作 


平常 所 用 到 的 写 操作 无 非 是 DELETE 、 UPDATE 、 INSERT 这 三 种 : 


。 DELETE : 
对 一 条 记录 做 DELETE 操作 的 过 程 其 实 是 先 在 B+ 树 中 定位 到 这 条 记录 的 位 置 ， 然 后 获取 一 下 这 条 记录 的 X 


锁 ， 然 后 再 执行 delete mark 操作 。 我 们 也 可 以 把 这 个 定位 待 删 除 记 录 在 B+ 树 中 位 置 的 过 程 看 成 是 一 个 获 
取 7X 锁 的 锁定 读 。 
。 UPDATE : 


在 对 一 条 记录 做 UPDATE 操作 时 分 为 三 种 情况 : 

" 如 果 未 修改 该 记录 的 键 值 并 且 被 更 新 的 列 占用 的 存储 空间 在 修改 前 后 未 发 生变 化 ， 则 先 在 B+ 树 中 定位 
到 这 条 记录 的 位 置 ， 然 后 再 获取 一 下 记录 的 X 锁 ， 最 后 在 原 记录 的 位 置 进行 修改 操作 。 其 实 我 们 也 可 以 
把 这 个 定位 待 修改 记录 在 B+ 树 中 位 置 的 过 程 看 成 是 一 个 获取 X 锁 的 锁定 读 。 

如 果 未 修改 该 记录 的 键 值 并 且 至 少 有 一 个 被 更 新 的 列 占用 的 存储 空间 在 修改 前 后 发 生变 化 ， 则 先 在 

B+ 树 中 定位 到 这 条 记录 的 位 置 ， 然 后 获取 一 下 记录 的 X 锁 ， 将 该 记录 彻底 删除 掉 (就 是 把 记录 彻底 移 
入 垃圾 链表 ) ， 最 后 再 插入 一 条 新 记录 。 这 个 定位 待 修改 记录 在 B+ 树 中 位 置 的 过 程 看 成 是 一 个 获取 X 
锁 的 锁定 读 ， 新 插入 的 记录 由 INSERT 操作 提供 的 隐 式 锁 进行 保护 。 

如 果 修 改 了 该 记录 的 键 值 ， 则 相当 于 在 原 记 录 上 做 DELETE 操作 之 后 再 来 一 次 INSERT 操作 ， 加 锁 操 作 就 
需要 按照 DELETE 和 INSERT 的 规则 进行 了 。 

。 INSERT : 


一 般 情 况 下 ， 新 插入 一 条 记录 的 操作 并 不 加 锁 ， 设 计 InnoDB 的 大 相通 过 一 种 称 之 为 隐 式 锁 的 东 东 来 保护 这 
条 新 插入 的 记录 在 本 事务 提交 前 不 被 别 的 事务 访问 ， 更 多 细节 我 们 后 边 看 哈 ~ 


小 贴 士 : 
当然 ， 在 一 些 特殊 情况 下 INSERT 操 作 也 是 会 获取 锁 的 ， 有 具体 情况 我 们 后 边 踪 叫 。 


25.2 多 粒度 锁 

我 们 前 边 提 到 的 锁 都 是 针对 记录 的 ， 也 可 以 被 称 之 为 行 级 锁 或 者 行 锁 ， 对 一 条 记录 加 锁 影 响 的 也 只 是 这 条 记 

录 而 已 ， 我 们 就 说 这 个 锁 的 粒度 比较 细 ; 其 实 一 个 事务 也 可 以 在 表 级 别 进 行 加 锁 ， 自 然 就 被 称 之 为 表 级 锁 或 

者 表 锁 ， 对 一 个 表 加 锁 影 响 整个 表 中 的 记录 ， 我 们 就 说 这 个 锁 的 粒度 比较 粗 。 给 表 加 的 锁 也 可 以 分 为 共享 锁 
(S 锁 ) 和 独占 锁 (X 锁 ) : 


。 给 表 加 S 锁 : 



























































如 果 一 个 事务 给 表 加 了 S 锁 ， 那 么 : 
别 的 事务 可 以 继续 获得 该 表 的 S 锁 
” 别 的 事务 可 以 继续 获得 该 表 中 的 某 些 记录 的 S 锁 
别 的 事务 不 可 以 继续 获得 该 表 的 X 锁 

” 别 的 事务 不 可 以 继续 获得 该 表 中 的 某 些 记录 的 X 锁 
。 给 表 加 X 锁 : 


如 果 一 个 事务 给 表 加 了 X 锁 “(意味 着 该 事务 要 独占 这 个 表 ) ， 那 么 : 
别 的 事务 不 可 以 继续 获得 该 表 的 S 锁 

， 别 的 事务 不 可 以 继续 获得 该 表 中 的 某 些 记 录 的 S 锁 

别 的 事务 不 可 以 继续 获得 该 表 的 X 锁 

， 别 的 事务 不 可 以 继续 获得 该 表 中 的 某 些 记 录 的 X 锁 


上 边 看 着 有 点 喝 喷 ， 为 了 更 好 的 理解 这 个 表 级 别 的 S 锁 和 X 锁 ， 我 们 举 一 个 现实 生活 中 的 例子 。 不 知道 各 位 同学 
都 上 过 大 学 没 ， 我 们 以 大 学 教学 楼 中 的 教室 为 例 来 分 析 一 下 加 锁 的 情况 : 


。 教室 一 般 都 是 公用 的 ， 我 们 可 以 随便 选 教室 进去 上 自习 。 当 然 ， 教 室 不 是 自家 的 ， 一 间 教 室 可 以 容纳 很 多 同 
学 同时 上 自习 ， 每 当 一 个 人 进去 上 自习 ， 就 相当 于 在 教室 门口 挂 了 一 把 S 锁 ， 如 果 很 多 同学 都 进去 上 自习 ， 
相当 于 教室 门口 挂 了 很 多 把 S 锁 (类 似 行 级 别 的 S 锁 ) 。 

。 有 的 时 候 教室 会 进行 检修 ， 比 方 说 换 地 板 ， 换 天 花 板 ， 换 灯 管 喻 的 ， 这 些 维修 项 目 并 不 能 同时 开展 。 如 果 教 
室 针对 某 个 项 目 进 行 检修 ， 就 不 允许 别 的 同学 来 上 自习 ， 也 不 允许 其 他 维修 项 目 进行 ， 此 时 相当 于 教室 门口 
会 挂 一 把 X 锁 (类似 行 级 别 的 X 锁 ) 。 


上 边 提 到 的 这 两 种 锁 都 是 针对 教室 而 言 的 ， 不 过 有 时 候 我 们 会 有 一 些 特殊 的 需求 : 
。 有 领导 要 来 参观 教学 楼 的 环境 。 


校 领导 考虑 并 不 想 影 响 同 学 们 上 自习 ， 但 是 此 时 不 能 有 教室 处 于 维修 状态 ， 所 以 可 以 在 教学 楼 门口 放置 一 把 
S$ 锁 “(类 似 表 级 别 的 S 锁 ) 。 此 时 : 
， 来 上 自习 的 学 生 们 看 到 | 教学 楼 门口 有 S 锁 ， 可 以 继续 进入 教学 楼 上 自习 。 
。 修理 工 看 到 教学 楼 门口 有 $ 锁 ， 则 先 在 教学 楼 门口 等 着 ， 哈 时 候 领 导 走 了 ， 把 教学 楼 的 S 锁 撤 掉 再 进入 
教学 楼 维修 。 
。 学 校 要 占用 教学 楼 进行 考试 。 


此 时 不 允许 教学 楼 中 有 正在 上 自习 的 教室 ， 也 不 允许 对 教室 进行 维修 。 所 以 可 以 在 教学 楼 门口 放置 一 把 X 锁 
(类 似 表 级 别 的 X 锁 ) 。 此 时 : 
， 来 上 自习 的 学 生 们 看 到 教学 楼 门口 有 X 锁 ， 则 需要 在 教学 楼 门口 等 着 ， 哈 时候 考试 结束 ， 把 教学 楼 的 X 
锁 撤 掉 再 进 入 教学 楼 上 自习 。 
， 修理 工 看 到 教学 楼 门口 有 X 锁 ， 则 先 在 教学 楼 门口 等 着 ， 哈 时 候 考 试 结束 ， 把 教学 楼 的 X 锁 撤 掉 再 进 入 
教学 楼 维修 。 


但 是 这 里 头 有 两 个 问题 : 


。 如 果 我 们 想 对 教学 楼 整体 上 S 锁 ， 首 先 需要 确保 教学 楼 中 的 没有 正在 维修 的 教室 ， 如 果 有 正在 维修 的 教室 ， 
需要 等 到 维修 结束 才 可 以 对 教学 楼 整体 上 S 锁 。 

。 如 果 我 们 想 对 教学 楼 整体 上 X 锁 ， 首 先 需要 确保 教学 楼 中 的 没有 上 自习 的 教室 以 及 正在 维修 的 教室 ， 如 果 有 
上 自习 的 教室 或 者 正在 维修 的 教室 ， 需 要 等 到 全 部 上 自习 的 同学 都 上 完 自习 离开 ， 以 及 维修 工 维 修 完 教室 离 
开 后 才 可 以 对 教学 楼 整体 上 X 锁 。 


我 们 在 对 教学 楼 整体 上 锁 ( 表 锁 ) 时 ， 怎 么 知道 教学 楼 中 有 没有 教室 已 经 被 上 锁 ( 行 锁 ) 了 呢 ? 依次 检查 每 一 
间 教 室 门 口 有 没有 上 锁 ” 那 这 效率 也 太 慢 了 吧 ! 遍历 是 不 可 能 人 遍历 的 ， 这 辈子 也 不 可 能 遍历 的 ， 于 是 乎 设计 
InnoDB 的 大 叔 们 提出 了 一 种 称 之 为 意向 锁 (英文 名 : Intention Locks ) 的 东 东 : 





。 意向 共享 锁 ， 英 文 名 : Intention Shared Lock ， 简 称 IS 锁 。 当 事务 准备 在 某 条 记录 上 加 S 锁 时 ， 需 要 先 
在 表 级 别 加 一 个 IS 锁 。 


。 意向 独占 锁 ， 英 文 名 : Intention Exclusive Lock ， 简 称 IX 锁 。 当 事务 准备 在 某 条 记录 上 加 X 锁 时 ， 需 
要 先 在 表 级 别 加 一 个 IX 锁 。 


视角 回 到 教学 楼 和 教室 上 来 : 


。 如 果 有 学 生 到 教室 中 上 自习 ， 那 么 他 先 在 整 栋 教学 楼 门口 放 一 把 IS 锁 “( 表 级 锁 ) ， 然 后 再 到 教室 门口 放 一 
把 S 锁 ( 行 锁 ) 。 

。 如 果 有 维修 工 到 教室 中 维修 ， 那 么 它 先 在 整 栋 教学 楼 门口 放 一 把 IX 锁 “”( 表 级 锁 ) ， 然 后 再 到 教室 门口 放 一 
把 X 锁 ( 行 锁 ) 。 


之 后 : 


。 如 果 有 领导 要 参观 教学 楼 ， 也 就 是 想 在 教学 楼 门口 前 放 S 锁 “( 表 锁 ) 时 ， 首 先 要 看 一 下 教学 楼 门口 有 没有 
IX 锁 ， 如 果 有 ， 意 味 着 有 教室 在 维修 ， 需 要 等 到 维修 结束 把 IX 锁 撤 掉 后 才 可 以 在 整 栋 教 学 楼 上 加 S 锁 。 

。 如 果 有 考试 要 占用 教学 楼 ， 也 就 是 想 在 教学 楼 门口 前 放 Xx 锁 “( 表 锁 ) 时 ， 首 先 要 看 一 下 教学 楼 门口 有 没有 
IS 锁 或 IX 锁 ， 如 果 有 ， 意 味 着 有 教室 在 上 自习 或 者 维修 ， 需 要 等 到 学 生 们 上 完 自习 以 及 维修 结束 把 IS 锁 
和 IX 锁 撤 掉 后 才 可 以 在 整 栋 教学 楼 上 加 X 锁 。 


小 贴 士 : 

学 生 在 教学 楼 门口 加 IS 锁 时 ， 是 不 关心 教学 楼 门口 是 否 有 IX 锁 的 ， 维 修 工 在 教学 楼 门口 加 IX 锁 时 ， 是 不 
关心 教学 楼 门口 是 否 有 IS 锁 或 者 其 他 IX 锁 的 。IS 和 IX 锁 只 是 为 了 判断 当前 时 间 教 学 楼 里 有 没有 被 占用 的 
教室 用 的 ， 也 就 是 在 对 教学 楼 加 S 锁 或 者 X 锁 时 才 会 用 到 。 










































































总 结 一 下 : 1S、IX 锁 是 表 级 锁 ， 它 们 的 提出 仅仅 为 了 在 之 后 加 表 级 别 的 S 锁 和 X 锁 时 可 以 快速 判断 表 中 的 记录 是 否 
被 上 锁 ， 以 避免 用 遍历 的 方式 来 查看 表 中 有 没有 上 锁 的 记录 ， 也 就 是 说 其 实 IS 锁 和 |X 锁 是 兼容 的 ，|IX 锁 和 |X 锁 是 
兼容 的 。 我 们 画 个 表 来 看 一 下 表 级 别 的 各 种 锁 的 兼容 性 : 





兼容 性 Xx IX Ss IS 
X ”不 兼容 不 兼容 不 兼容 不 兼容 
IX 不 兼容 ”兼容 ”不 兼容 ”兼容 








25.3 MySQL 中 的 行 锁 和 表 锁 


上 边 说 的 都 算是 些 理论 知识 ， 其 实 MySQL 支持 多 种 人 存储 引 警 ， 不 同人 存储 引擎 对 锁 的 支持 也 是 不 一 样 的 。 当 然 ， 我 
们 重点 还 是 讨论 InnoDB 存储 引 警 中 的 锁 ， 其 他 的 存储 引 警 只 是 稍微 提 一 下 ~ 


25.3.1 其 他 存储 引擎 中 的 锁 


对 于 MyISAM 、 MEMORY 、 MERGE 这 些 存 储 引 警 来 癌 ， 它 们 只 支持 表 级 锁 ， 而 且 这 些 引 警 并 不 支持 事务 ， 所 以 使 
用 这 些 存 储 引 警 的 锁 一 般 都 是 针对 当前 会 话 来 阅 的 。 比 方 说 在 Session 1 中 对 一 个 表 执 行 SELECT 操作 ， 就 相当 
于 为 这 个 表 加 了 一 个 表 级 别 的 S 锁 ， 如 果 在 SELECT 操作 未 完成 时 ， Session 2 中 对 这 个 表 执行 UPDATE 操作 ， 
相当 于 要 获取 表 的 X 锁 ， 此 操作 会 被 阻塞 ， 直 到 Session 1 中 的 SELECT 操作 完成 ， 释 放 掉 表 级 别 的 S 锁 后 ， 
Session 2 中 对 这 个 表 执 行 UPDATE 操作 才能 继续 获取 X 锁 ， 然 后 执行 具体 的 更 新 语句 。 


小 贴 士 : 

因为 使 用 MyISAM、MEMORY、MERGE 这 些 存 储 引 擎 的 表 在 同一 时 刻 只 允许 一 个 会 话 对 表 进行 写 操 作 ， 所 以 
这 些 存储 引擎 实际 上 最 好 用 在 只 读 ， 或 者 大 部 分 都 是 读 操作 ， 或 者 单 用 户 的 情景 下 。 
另外 ， 在 MyISAM 存 储 引 擎 中 有 一 个 称 之 为 Concurrent Inserts 的 特性 ， 支 持 在 对 MyISAM 表 读 取 时 同时 插 
入 记录 ， 这 样 可 以 提升 一 些 搬入 速度 。 关 于 更 多 Concurrent Inserts 的 细节 ， 我 们 就 不 啼 明 了 ， 详 情 可 
以 参考 文档 。 























































































































25.3.2 InnoDB 存 储 引 掌中 的 锁 
InnoDB 存储 引擎 既 支 持 表 锁 ， 也 支持 行 锁 。 表 锁 实 现 简单 ， 占 用 资源 较 少 ， 不 过 粒度 很 粗 ， 有 时 候 你 仅仅 需要 
锁 住 几 条 记录 ， 但 使 用 表 锁 的 话 相 当 于 为 表 中 的 所 有 记录 都 加 锁 ， 所 以 性 能 比较 差 。 行 锁 粒 度 更 细 ， 可 以 实现 更 
精准 的 并 发 控制 。 下 边 我 们 详细 看 一 下 。 


25.3.2.1 InnoDB 中 的 表 级 锁 


表 级 别 的 S 锁 、 X 锁 


在 对 某 个 表 执 行 SELECT 、 INSERT 、 DELETE 、 UPDATE 语句 时 ， InnoDB 存储 引擎 是 不 会 为 这 个 表 添加 表 
级 别 的 S 锁 或 者 X 锁 的 。 


另外 ， 在 对 某 个 表 执行 一 些 诸如 ALTER TABLE 、 DROP TABLE 这 类 的 DDL 语句 时 ， 其 他 事务 对 这 个 表 并 发 执 
行 诸如 SELECT 、 INSERT 、 DELETE 、 UPDATE 的 语句 会 发 生 阻塞 ， 同 理 ， 某 个 事务 中 对 某 个 表 执 行 
SELECT 、 INSERT 、 DELETE 、 UPDATE 语句 时 ， 在 其 他 会 话 中 对 这 个 表 执行 DDL 语句 也 会 发 生 阻塞 。 这 个 
过 程 其 实 是 通过 在 server 层 使 用 一 种 称 之 为 元 数据 锁 (英文 名 :，Metadata Locks ， 简 称 MDL ) 东 东 来 实 
现 的 ， 一 般 情 况 下 也 不 会 使 用 InnoDB 存储 引擎 自己 提供 的 表 级 别 的 S 锁 和 X 锁 。 


小 贴 士 : 

在 事务 简介 的 章节 中 我 们 说 过 ，DDL 语 句 执 行 时 会 隐 式 的 提交 当前 会 话 中 的 事务 ， 这 主要 是 DDL 语 
句 的 执行 一 般 都 会 在 若干 个 特殊 事务 中 完成 ， 在 开启 这 些 特殊 事务 前 ， 需 要 将 当前 会 话 中 的 事务 提 
交 掉 。 另 外 ， 关 于 MDL 锁 并 不 是 我 们 本 章 所 要 讨论 的 范围 ， 大 家 可 以 参阅 文档 了 解 哈 一 


















































其 实 这 个 InnoDB 存储 引擎 提供 的 表 级 S 锁 或 者 X 锁 是 相当 鸡肋 ， 只 会 在 一 些 特殊 情况 下 ， 比 方 说 崩 演 恢复 
过 程 中 用 到 。 不 过 我 们 还 是 可 以 手动 获取 一 下 的 ， 比 方 说 在 系统 变量 autocommit=0，innodb_table_locks = 
1 时 ， 手 动 获取 InnoDB 存储 引擎 提供 的 表 t 的 S 锁 或 者 X 锁 可 以 这 么 写 : 

a LOCK TABLES t READ : InnoDB 人 存储 引擎 会 对 表 t 加 表 级 别 的 S 锁 。 

as。 LOCK TABLES t WRITE : InnoDB 存储 引擎 会 对 表 t 加 表 级 别 的 X 锁 。 


不 过 请 尽量 避免 在 使 用 InnoDB 存储 引擎 的 表 上 使 用 LOCK TABLES 这 样 的 手动 锁 表 语句 ， 它 们 并 不 会 提 
供 什 么 额外 的 保护 ， 只 是 会 降低 并 发 能 力 而 已 。 InnoDB 的 厉害 之 处 还 是 实现 了 更 细 粒 度 的 行 锁 ， 关 于 
表 级 别 的 S 锁 和 X 锁 大 家 了 解 一 下 就 办 了 。 

表 级 别 的 IS 锁 、 IX 锁 


当 我 们 在 对 使 用 InnoDB 存储 引擎 的 表 的 某 些 记录 加 S$ 锁 之 前 ， 那 就 需要 先 在 表 级 别 加 一 个 IS 锁 ， 当 我 们 
在 对 使 用 InnoDB 存储 引擎 的 表 的 某 些 记录 加 Xx 锁 之 前 ， 那 就 需要 先 在 表 级 别 加 一 个 IX 锁 。 IS 锁 和 IX 锁 
的 使 命 只 是 为 了 后 续 在 加 表 级 别 的 S 锁 和 X 锁 时 判断 表 中 是 否 有 已 经 被 加 锁 的 记录 ， 以 避免 用 遍历 的 方式 来 
查看 表 中 有 没有 上 锁 的 记录 。 更 多 关于 IS 锁 和 IX 锁 的 解释 我 们 上 边 都 啼 归 过 了 ， 就 不 乾 述 了 。 

表 级 别 的 AUTO-INC 锁 


在 使 用 MySQL 过 程 中 ， 我 们 可 以 为 表 的 某 个 列 添加 AUT0_INCREMENT 属性 ,之 后 在 插入 记录 时 ， 可 以 不 指定 
该 列 的 值 ， 系 统 会 自动 为 它 赋 上 递增 的 值 ， 比 方 说 我 们 有 一 个 表 : 


CREATE TABLE t ( 
id INT NOT NULL AUTO INCREMENT, 
c VARCHAR (100), 
PRIMARY KEY (id) 

) Engine=InnoDB CHARSET=utf8; 


由 于 这 个 表 的 id 字段 声明 了 AUT0_INCREMENT ， 也 就 意味 着 在 书写 插入 语句 时 不 需要 为 其 赋值 ， 比 方 说 这 
样 : 


INSERT INTO t(c) VALUES( aa ), ( bb’ ): 


上 边 的 插入 语句 并 没有 为 id 列 显 式 赋值 ， 所 以 系统 会 自动 为 它 赋 上 递增 的 值 ， 效 果 就 是 这 样 : 


mysql> SELECT x*¥ FROM t; 


-一 一 一 一 + 一 一 一 一 一 一 十 
id | ce | 
一 一 一 一 + 一 一 一 一 一 一 十 
1 |1aa | 
2|bb | 
-一 一 一 一 + 一 一 一 一 一 一 十 





2 rows in set (0.00 sec) 


系统 实现 这 种 自动 给 AUTO_INCREMENT 修饰 的 列 递增 赋值 的 原理 主要 是 两 个 : 

" 及 用 AUT0-INC 锁 ， 也 就 是 在 执行 插入 语句 时 就 在 表 级 别 加 一 个 AUTO-INC 锁 ， 然 后 为 每 条 待 插入 记录 
的 AUTO_INCREMENT 修饰 的 列 分 配 递增 的 值 ， 在 该 语句 执行 结束 后 ， 再 把 AUTO-INC 锁 释放 掉 。 这 样 一 个 
事务 在 持 有 AUT0-INC 锁 的 过 程 中 ， 其 他 事务 的 插入 语句 都 要 被 阻塞 ， 可 以 保证 一 个 语句 中 分 配 的 递增 
值 是 连续 的 。 


如 果 我 们 的 插入 语句 在 执行 前 不 可 以 确定 具体 要 插入 多 少 条 记录 (无 法 预计 即将 插入 记录 的 数量 ) ， 比 
方 说 使 用 INSERT ... SELECT 、 REPLACE ... SELECT 或 者 LOAD DATA 这 种 插入 语句 ， 一 般 是 使 用 
AUTO-INC 锁 为 AUTO INCREMENT 修饰 的 列 生成 对 应 的 值 。 


小 贴 士 : 
需要 注意 一 下 的 是 ， 这 个 AUTO-INC 锁 的 作用 范围 只 是 单个 插入 语句 ， 插 入 语句 执行 完成 后 ， 
这 个 锁 就 被 释放 了 ， 跟 我 们 之 前 介绍 的 锁 在 事务 结束 时 释放 是 不 一 样 的 。 
































采用 一 个 轻 量 级 的 锁 ， 在 为 插入 语句 生成 AUT0_INCREMENT 修饰 的 列 的 值 时 获取 一 下 这 个 轻 量 级 锁 ， 然 
后 生成 本 次 插入 语句 需要 用 到 的 AUTO_INCREMENT 列 的 值 之 后 ， 就 把 该 轻 量 级 锁 释 放 掉 ， 并 不 需要 等 到 
整个 插入 语句 执行 完 才 释放 锁 。 


如 果 我 们 的 插入 语句 在 执行 前 就 可 以 确定 具体 要 插入 多 少 条 记录 ， 比 方 说 我 们 上 边 举 的 关于 表 t 的 例子 
中 ， 在 语句 执行 前 就 可 以 确定 要 插入 2 条 记录 ， 那 么 一 般 采 用 轻 量 级 锁 的 方式 对 AUTO_INCREMENT 修饰 的 
列 进行 赋值 。 这 种 方式 可 以 避免 锁定 表 ， 可 以 提升 插入 性 能 。 


小 贴 士 : 

设计 InnoDB 的 大 叔 提 供 了 一 个 称 之 为 innodb_autoinc lock mode 的 系统 变量 来 控制 到 底 使 用 上 
述 两 种 方式 中 的 哪 种 来 为 AUTO INCREMENT 修 饰 的 列 进行 赋值 ， 当 innodb autoinc lock mode 值 
为 0 时 ， 一 律 采用 AUTO-INC 锁 ;， 当 innodb autoinc lock mode 值 为 2 时 ， 一 律 采用 轻 量 级 锁 ;， 当 
innodb_autoinc_lock_mode 值 为 1 时 ， 两 种 方式 混 着 来 (也 就 是 在 插入 记录 数量 确定 时 采用 轻 
量 级 锁 ， 不 确定 时 使 用 AUTO-INC 锁 ) 。 不 过 当 innodb autoinc lock mode 值 为 2 时 ， 可 能 会 造 
成 不 同事 务 中 的 插入 语句 为 AUTO_INCREMENT 修 饰 的 列 生 成 的 值 是 交叉 的 ， 在 有 主 从 复制 的 场景 
中 是 不 安全 的 。 
























































































































































25.3.2.2 InnoDB 中 的 行 级 锁 

很 遗憾 的 通知 大 家 一 个 不 好 的 消息 ， 上 边 讲 的 都 是 铺垫 ， 本 章 真正 的 重点 才刚 刚 开始 [手动 偷 笑 ]。 

行 锁 ， 也 称 为 记录 锁 ， 顾 名 思 义 就 是 在 记录 上 加 的 锁 。 不 过 设计 InnoDB 的 大 叔 很 有 才 ， 一 个 行 锁 玩 出 了 各 
种 人 花样， 也 就 是 把 行 锁 分 成 了 各 种 类 型 。 换 名 话说 即使 对 同一 条 记录 加 行 锁 ， 如 果 类 型 不 同 ， 起 到 的 功效 也 是 
不 同 的。 为 了 故事 的 顺利 发 展 ， 我 们 还 是 先 将 之 前 啼 明 MVCC 时 用 到 的 表 抄 一 遍 : 


CREATE TABLE hero ( 
number INT， 
name VARCHAR (100), 
country varchar (100), 
PRIMARY KEY (number), 
KEY idx name (name) 

) Engine=InnoDB CHARSET=utf8; 


我 们 主要 是 想 用 这 个 表 存 储 三 国 时 的 英雄 ， 然 后 向 这 个 表 里 插 入 几 条 记录 : 
INSERT INTO hero VALUES 
(1，” 1 刘备 ”，” 罩 ' )， 
(3，”z 诸 葛 亮 ，' 罚 ' )， 
(8，’”c 曹 操 '"，’ 魏 ' )， 
(15，" x 荀 或 ，’ 魏 " )， 
(20，’” ss 孙权",，' 吴 ' ); 
现在 表 里 的 数据 就 是 这 样 的 : 


mysql> SELECT x*¥ FROM hero; 




















number | name country 
1 | 1 刘备 加 
3 | z 诸 葛 亮 后 | 
8 | c 曹 操 魏 
15 | x 苟 或 魏 
20 | s 孙 权 天 

















5 rows in set (0.01 sec) 


小 贴 士 : 

不 是 说 好 的 存储 三 国 时 的 英雄 么 ， 你 在 搞 什 么 ， 为 啥 要 在 刘备 、 曹操 、 孙权 " 前 边 加 
上 工 、c、's 这 几 个 字母 呀 ? 这 个 主要 是 因为 我 们 采用 utf8 字 符 集 ， 该 字符 集 并 没有 对 应 的 按照 汉 
语 拼音 进行 排序 的 比较 规则 ， 也 就 是 说 刘备 、 ”曹操 、 孙权 ”这 几 个 字符 串 的 排序 并 不 是 按照 它们 汉 
语 拼音 进行 排序 的 ， 我 人 大 家 懂 逼 ， 所 以 在 汉字 前 边 加 上 了 汉字 对 应 的 拼音 的 第 一 个 字母 ， 这 样 在 排序 
时 就 是 按照 汉语 拼音 进行 排序 ， 大 家 也 不 懂 逼 了 。 

另外 ， 我 们 故意 把 各 条 记录 number 列 的 值 搞 得 很 分 散 ， 后 边 会 用 到 ， 稍 安 纪 躁 哈 一 


我 们 把 hero 表 中 的 聚 篮 索引 的 示意 图 画 一 下 : 































































































































































































聚 徐 索引 示意 图 : 


number 列 : 1 3 8 15 20 
name 列 : 刘备 “| z 诸 葛 亮 | c 曹 操 | x 苟 或 | s 孙 权 
country 列 : 蜀 蜀 魏 魏 吴 


当然 ， 我 们 把 B+ 树 的 索引 结构 做 了 一 个 超级 简化 ， 只 把 索引 中 的 记录 给 拿 了 出 来 ， 我 们 这 里 只 是 想 强 调 聚 簇 索 
引 中 的 记录 是 按照 主键 大 小 排序 的 ， 并 且 省 略 掉 了 聚 复 索 引 中 的 隐藏 列 ， 大 家 心里 明白 就 好 (不 理解 索引 结构 的 
同学 可 以 去 前 边 的 文章 中 查看 ) 。 





现在 准备 工作 做 完了 ， 下 边 我 们 来 看 看 都 有 哪些 常用 的 行 锁 类 型 。 
。 Record Locks : 
我 们 前 边 提 到 的 记录 锁 就 是 这 种 类 型 ， 也 就 是 仪 仪 把 一 条 记录 锁 上 ， 我 决定 给 这 种 类 型 的 锁 起 一 个 比较 不 正 


经 的 名 字 : ”正经 记录 锁 (请 允许 我 皮 一 下 ， 我 实在 不 知道 该 叫 个 哈 名 好 ) 。 官 方 的 类 型 名 称 为 : 
LOCK REC NOT_GAP 。 比 方 说 我 们 把 number 值 为 8 的 那 条 记录 加 一 个 正经 记录 锁 的 示意 图 如 下 : 





给 number 值 为 8 的 记录 加 类 型 
为 LOCK_REC_NOT_GAP 的 记录 锁 


number 列 : 
name 列 : x 荀 或 | s 孙 权 
country 列 : 吴 





正经 记录 锁 是 有 S 锁 和 X 锁 之 分 的 ， 让 我 们 分 别称 之 为 S 型 正经 记录 锁 和 X 型 正经 记录 锁 吧 ( 听 起 来 有 
点 怪 怪 的 ) ， 当 一 个 事务 获取 了 一 条 记录 的 S 型 正经 记录 锁 后 ， 其 他 事务 也 可 以 继续 获取 该 记录 的 S 型 正经 
记录 锁 ， 但 不 可 以 继续 获取 X 型 正经 记录 锁 ; 当 一 个 事务 获取 了 一 条 记录 的 X 型 正经 记录 锁 后 ， 其 他 事务 
既 不 可 以 继续 获取 该 记录 的 S$ 型 正经 记录 锁 ， 也 不 可 以 继续 获取 X 型 正经 记录 锁 ; 

。 Gap Locks : 




















我 们 说 MySQL 在 REPEATABLE READ 隔离 级 别 下 是 可 以 解决 幻 读 问题 的 ， 解 决 方案 有 两 种 ， 可 以 使 用 MVCC 方 
案 解 决 ， 也 可 以 采用 加 锁 方案 解决 。 但 是 在 使 用 加 锁 方案 解决 时 有 个 大 问题 ， 就 是 事务 在 第 一 次 执行 读 取 
操作 时 ， 那 些 幻影 记录 尚 不 存在 ,我 们 无 法 给 这 些 幻影 记录 加 上 正经 记录 锁 。 不 过 这 难 不 倒 设计 InnoDB 的 


大 叔 ， 他 们 提出 了 一 种 称 之 为 Gap Locks 的 锁 ， 官 方 的 类 型 名 称 为 : LOCK_GAP ， 我 们 也 可 以 简称 为 gap 
锁 。 比 方 说 我 们 把 number 值 为 8 的 那 条 记录 加 一 个 gap 锁 的 示意 图 如 下 : 









给 number 值 为 8 的 记录 加 
类 型 为 LOCK_GAP 的 记录 锁 





聚 徐 索引 示意 图 : 


number 列 : 
name 列 : x 苟 或 | s 孙 权 


country 列 : 


如 图 中 为 number 值 为 8 的 记录 加 了 gap 锁 ， 意 味 着 不 允许 别 的 事务 在 number 值 为 8 的 记录 前 边 的 间 辽 
插入 新 记录 ， 其 实 就 是 number 列 的 值 (3，8) 这 个 区 间 的 新 记录 是 不 允许 立即 插入 的 。 比 方 说 有 另外 一 个 事 
务 再 想 插入 一 条 number 值 为 4 的 新 记录 ， 它 定位 到 该 条 新 记录 的 下 一 条 记录 的 number 值 为 8， 而 这 条 记录 
上 又 有 一 个 gap 锁 ， 所 以 就 会 阻塞 插入 操作 ， 直 到 拥有 这 个 gap 锁 的 事务 提交 了 之 后 ， number 列 的 值 在 区 
间 (3，8) 中 的 新 记录 才 可 以 被 插入 。 


这 个 gap 锁 的 提出 仅仅 是 为 了 防止 插入 幻影 记录 而 提出 的 ， 昌 然 有 共享 gap 锁 和 独占 gap 锁 这 样 的 说 法 ， 
但 是 它们 起 到 的 作用 都 是 相同 的 。 而 且 如 果 你 对 一 条 记录 加 了 gap 锁 (不论 是 共享 gap 锁 还 是 独占 gap 
锁 ) ， 并 不 会 限制 其 他 事务 对 这 条 记录 加 正经 记录 锁 或 者 继续 加 gap 锁 ， 再 强调 一 遍 ， gap 锁 的 作用 仅 
仅 是 为 了 防止 插入 幻影 记录 的 而 已 。 


不 知道 大 家 发 现 了 一 个 问题 没 ， 给 一 条 记录 加 了 gap 锁 只 是 不 允许 其 他 事务 往 这 条 记录 前 边 的 间隙 插入 新 记 
录 ， 那 对 于 最 后 一 条 记录 之 后 的 间隙 ， 也 就 是 hero 表 中 number 值 为 20 的 记录 之 后 的 间隙 该 咋 办 呢 ? 也 就 
是 说 给 哪 条 记录 加 gap 锁 才能 阻止 其 他 事务 插入 number 值 在 (20，+ce) 这 个 区 间 的 新 记录 呢 ? 这 时 候 应 该 
想起 我 们 在 前 边 路 叫 数据 页 时 介绍 的 两 条 伪 记 录 了 : 

" Infimum 记录 ， 表 示 该 页 面 中 最 小 的 记录 。 

" Supremum 记录 ， 表 示 该 页 面 中 最 大 的 记录 。 


为 了 实现 阻止 其 他 事务 插入 number 值 在 (20，+~) 这 个 区 间 的 新 记录 ， 我 们 可 以 给 索引 中 的 最 后 一 条 
记录 ， 也 就 是 number 值 为 20 的 那 条 记录 所 在 页 面 的 Supremum 记录 加 上 一 个 gap 锁 ， 画 个 图 就 是 这 
样 : 





















给 Supremum 记 录 加 了 
类 型 为 LOCK_GAP 的 记录 锁 





入 索引 示意 图 
number 列 : SS 
互 
name 列 : 诸葛 亮 x 苟 或 | s 孙 权 3 
GC 
country 列 : 3 


这 样 就 可 以 阻止 其 他 事务 插入 number 值 在 (20，+ce) 这 个 区 间 的 新 记录 。 为 了 大 家 理解 方便 ， 之 后 的 
索引 示意 图 中 都 会 把 这 个 Supremum 记录 画 出 来 。 
。 Next-Key Locks : 


有 时 候 我 们 既 想 锁 住 某 条 记录 ， 又 想 阻 止 其 他 事务 在 该 记录 前 边 的 间 阶 插入 新 记录 ， 所 以 设计 InnoDB 的 大 
叔 们 就 提出 了 一 种 称 之 为 Next-Key Locks 的 锁 ， 官 方 的 类 型 名 称 为 : LOCK_ORDINARY ， 我 们 也 可 以 简称 为 
next-key 锁 。 比 方 说 我 们 把 number 值 为 8 的 那 条 记录 加 一 个 next-key 锁 的 示意 图 如 下 : 





给 number 值 为 8 的 记录 加 类 型 
为 LOCK_0RD1INARY 的 记录 锁 


number 列 : 15 20 
name 列 : 诸葛 亮 B95 x 苟 或 | s 孙 权 


Wnwaidns 


country 列 : 





next-key 锁 的 本 质 就 是 一 个 正经 记录 锁 和 一 个 gap 锁 的 合体 ， 它 既 能 保护 该 条 记录 ， 又 能 阻止 别 的 事务 
将 新 记录 插入 被 保护 记录 前 边 的 间隙 。 


Insert Intention Locks : 





我 们 说 一 个 事务 在 插入 一 条 记录 时 需要 判断 一 下 插入 位 置 是 不 是 被 别 的 事务 加 了 所 谓 的 gap 锁 ( next-key 
锁 也 包含 gap 锁 ， 后 边 就 不 强调 了 ) ， 如 果 有 的 话 ， 插 入 操作 需要 等 待 ， 直 到 拥有 gap 锁 的 那个 事务 提 
交 。 但 是 设计 InnoDB 的 大 叔 规定 事务 在 等 待 的 时 候 也 需要 在 内 存 中 生成 一 个 锁 结构 ， 表 明 有 事务 想 在 某 
个 间隙 中 插入 新 记录 ， 但 是 现在 在 等 待 。 设 计 InnoDB 的 大 叔 就 把 这 种 类 型 的 锁 命 名 为 Insert Intention 
Locks ， 官 方 的 类 型 名 称 为 : LOCK_INSERT_INTENTION ， 我 们 也 可 以 称 为 插入 意向 锁 。 








比方 说 我 们 把 number 值 为 8 的 那 条 记录 加 一 个 插入 意向 锁 的 示意 图 如 下 : 







给 number 值 为 8 的 记录 加 类 型 为 
LOCK_INSERT_INTENTION 的 记录 锁 





number 列 : 


name 列 : 


ge 
5S 
多] 
® 
3 
二 


country 列 : 


为 了 让 大 家 彻底 理解 这 个 插入 意向 锁 的 功能 ， 我 们 还 是 举 个 例子 然后 画 个 图 表示 一 下 。 比 方 说 现在 T1 为 
number 值 为 8 的 记录 加 了 一 个 gap 锁 ， 然 后 T2 和 T3 分 别 想 向 hero 表 中 插入 number 值 分 别 为 4、 5 的 
两 条 记录 ， 所 以 现在 为 number 值 为 8 的 记录 加 的 锁 的 示意 图 就 如 下 所 示 : 


trx 信 息 : i 


获取 锁 成 功 ， 事 务 继续 执行 
type : gap ES 


四 isS Waiting : false 





锁 结 构 
; trx 信 息 : T2 
8 'c 曹 操 ' > - ET 二 a 
、 获取 锁 失 败 ， 事 务 开始 等 待 
type : 插入 意向 镇 . 


trx 信 息 : LK 


上 SETTT DR ( 续 取 镇 失败 ， 事 务 开始 等 竺 


type : 插入 意向 锁 





小 贴 士 : 
我 们 在 锁 结构 中 又 新 添 了 一 个 type 属 性 ， 表 明 该 锁 的 类 型 。 稍 后 会 全 面 介绍 InnoDB 存 储 引 擎 中 的 


一 个 锁 结构 到 底 长 什么 样 。 


从 图 中 可 以 看 到 ， 由 于 T1 持 有 gap 锁 ， 所 以 T2 和 T3 需要 生成 一 个 插入 意向 锁 的 锁 结构 并 且 处 于 等 待 

状态 。 当 11 提交 后 会 把 它 获 取 到 的 锁 都 释放 掉 ， 这 样 72 和 T3 就 能 获取 到 对 应 的 插入 意向 锁 了 (本 质 上 

就 是 把 插入 意向 锁 对 应 锁 结构 的 is_waiting 属性 改 为 false ) ， T2 和 T3 之 间 也 并 不 会 相互 阻塞 ， 它 们 可 
以 同时 获取 到 number 值 为 8 的 插入 意向 锁 ， 然 后 执行 插入 操作 。 事 实 上 插入 意向 锁 并 不 会 阻止 别 的 事务 继 
续 获 取 该 记录 上 任何 类 型 的 锁 ( 插入 意向 锁 就 是 这 么 鸡肋 ) 。 














。 隐 式 锁 


[EA et A 


我 们 前 边 说 一 个 事务 在 执行 INSERT 操作 时 ， 如 果 即 将 插入 的 间隙 已 经 被 其 他 事务 加 了 gap 锁 ， 那 么 本 次 
INSERT 操作 会 阻塞 ， 并 且 当 前 事务 会 在 该 间隙 上 加 一 个 插入 意向 锁 ， 否 则 一 般 情 况 下 INSERT 操作 是 不 加 
锁 的 。 那 如 果 一 个 事务 首先 插入 了 一 条 记录 (此 时 并 没有 与 该 记录 关联 的 锁 结构 ) ， 然 后 另 一 个 事务 : 
”立即 使 用 SELECT ... LOCK IN SHARE MODE 语句 读 取 这 条 事务 ， 也 就 是 在 要 获取 这 条 记录 的 S 锁 ， 或 者 
使 用 SELECT ..， FOR UPDATE 语句 读 取 这 条 事务 或 者 直接 修改 这 条 记录 ， 也 就 是 要 获取 这 条 记录 的 X 
锁 ， 该 咋 办 ? 


如 果 人 允许 这 种 情况 的 发 生 ， 那 么 可 能 产生 脏 读 问题 。 
立即 修改 这 条 记录 ， 也 就 是 要 获取 这 条 记录 的 X 锁 ， 该 咋 办 ? 


如 果 人 允许 这 种 情况 的 发 生 ， 那 么 可 能 产生 脏 写 问题 。 


这 时 候 我 们 前 边 嘴 归 了 很 多 遍 的 事务 id 又 要 起 作用 了 。 我 们 把 聚 簇 索 引 和 二 级 索引 中 的 记录 分 开 看 一 
下 : 

情景 一 : 对 于 聚 簇 索 引 记 录 来 襄 ， 有 一 个 trx_id 隐藏 列 ， 该 隐藏 列 记 录 着 最 后 改动 该 记录 的 事务 id 。 
那么 如 果 在 当前 事务 中 新 插入 一 条 聚 簇 索引 记录 后 ， 该 记录 的 trx_id 隐藏 列 代表 的 的 就 是 当前 事务 的 
事务 id ， 如 果 其 他 事务 此 时 想 对 该 记录 添加 S 锁 或 者 x 锁 时 ， 首 先 会 看 一 下 该 记录 的 trx_id 隐藏 列 
代表 的 事务 是 否 是 当前 的 活跃 事务 ， 如 果 是 的 话 ， 那 么 就 帮助 当前 事务 创建 一 个 X 锁 ”( 也 就 是 为 当前 事 
务 创建 一 个 锁 结 构 ， is_waiting 属性 是 false ) ， 然 后 自己 进入 等 待 状态 (也 就 是 为 自己 也 创建 一 个 
锁 结构 ， is_waiting 属性 是 true ) 。 

情景 二 : 对 于 二 级 索引 记录 来 说 ， 本 身 并 没有 trx_id 隐藏 列 ， 但 是 在 二 级 索引 页 面 的 Page Header 部 
分 有 一 个 PAGE _MAX_TRX_ID 属性 ， 该 属性 代表 对 该 页 面 做 改动 的 最 大 的 事务 id ， 如 果 

PAGE_ MAX_TRX_ID 属性 值 小 于 当前 最 小 的 活跃 事务 id ， 那 么 说 明 对 该 页 面 做 修改 的 事务 都 已 经 提交 
了 ， 否 则 就 需要 在 页 面 中 定位 到 对 应 的 二 级 索引 记录 ， 然 后 回 表 找 到 它 对 应 的 聚 复 索 引 记录 ， 然 后 再 重 
复 情景 一 的 做 法 。 


通过 上 边 的 叙述 我 们 知道 ， 一 个 事务 对 新 插入 的 记录 可 以 不 显 式 的 加 锁 (生成 一 个 锁 结 构 ) ， 但 是 由 于 
事务 id 这 个 牛 副 的 东 东 的 存在 ， 相 当 于 加 了 一 个 隐 式 锁 。 别 的 事务 在 对 这 条 记录 加 S 锁 或 者 X 锁 








时 ， 由 于 隐 式 锁 的 存在 ， 会 先 帮 助 当前 事务 生成 一 个 锁 结 构 ， 然 后 自己 再 生成 一 个 锁 结 构 后 进入 等 待 
小 贴 士 : 


除了 插入 意向 锁 ， 在 一 些 特殊 情况 下 INSERT 还 会 获取 一 些 锁 ， 我 们 稍 后 啼 嘱 哈 。 





25.3.3 InnoDB 锁 的 内 存 结 构 


我 们 前 边 说 对 一 条 记录 加 锁 的 本 质 就 是 在 内 存 中 创建 一 个 锁 结 构 与 之 关联 ， 那 么 是 不 是 一 个 事务 对 多 条 记录 加 
锁 ， 就 要 创建 多 个 锁 结 构 呢 ? 比方 说 事务 T1 要 执行 下 边 这 个 语句 : 





# 事务 T1 
SELECT * FROM hero LOCK IN SHARE MODE; 





很 显然 这 条 语句 需要 为 hero 表 中 的 所 有 记录 进行 加 锁 ， 那 是 不 是 需要 为 每 条 记录 都 生成 一 个 锁 结 构 呢 ?” 其 实 理 
论 上 创建 多 个 锁 结 构 没 问 题 ， 反 而 更 容易 理解 ， 但 是 谁 知道 你 在 一 个 事务 里 想 对 多 少 记 录 加 锁 呢 ， 如 果 一 个 事 
务 要 获取 10000 条 记录 的 锁 ， 要 生成 10000 个 这 样 的 结构 也 太 亏 了 吧 ! 所 以 设计 InnoDB 的 大 叔 本 着 勤俭 节约 的 传 
统 美德 ， 决 定 在 对 不 同 记录 加 锁 时 ， 如 果 符 合 下 边 这 些 条 件 : 


在 同一 个 事务 中 进行 加 锁 操作 
被 加 锁 的 记录 在 同一 个 页 面 中 
加 锁 的 类 型 是 一 样 的 

等 待 状态 是 一 样 的 


那么 这 些 记 录 的 锁 就 可 以 被 放 到 一 个 锁 结 构 中 。 当 然 ， 这 么 空 口 白 牙 的 说 有 点 儿 抽 象 ， 我 们 还 是 画 个 图 来 看 看 
InnoDB 存储 引擎 中 的 锁 结构 具体 长 哈 样 吧 : 
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我 们 看 看 这 个 结构 里 边 的 各 种 信息 都 是 干 嘛 的 : 
。 锁 所 在 的 事务 信息 : 


不 论 是 表 锁 还 是 行 锁 ， 都 是 在 事务 执行 过 程 中 生成 的 ， 哪 个 事务 生成 了 这 个 锁 结构 ， 这 里 就 记载 着 这 个 
事务 的 信息 。 
小 贴 士 : 
实际 上 这 个 所 谓 的 锁 所 在 的 事务 信息 在 内 存 结构 中 只 是 一 个 指针 而 已 ， 所 以 不 会 占用 多 大 内 存 
空间 ， 通 过 指针 可 以 找到 内 存 中 关于 该 事务 的 更 多 信息 ， 比 方 说 事务 id 是 什么 。 下 边 介绍 的 所 谓 的 
索引 信息 其 实 也 是 一 个 指针 。 


。 索引 信息 : 


对 于 行 锁 来 说 ， 需 要 记录 一 下 加 锁 的 记录 是 属于 哪个 索引 的 。 
。 表 锁 / 行 锁 信息 : 


表 锁 结构 和 行 锁 结 构 在 这 个 位 置 的 内 容 是 不 同 的 : 


表 锁 : 
记载 着 这 是 对 哪个 表 加 的 锁 ， 还 有 其 他 的 一 些 信息 。 
= 行 锁 : 


记载 了 三 个 重要 的 信息 : 
o Space ID : 记录 所 在 表 空 间 。 
o Page Number : 记录 所 在 页 号 。 
o。 n_bits : 对 于 行 锁 来 阅 ， 一 条 记录 就 对 应 着 一 个 比特 位 ， 一 个 页 面 中 包含 很 多 记录 ， 用 不 同 的 比 
特 位 来 区 分 到 底 是 哪 一 条 记录 加 了 锁 。 为 此 在 行 锁 结 构 的 末尾 放置 了 一 堆 比特 位 ， 这 个 n_bits 属 
性 代表 使 用 了 多 少 比 特 位 。 


小 贴 士 : 
并 不 是 该 页 面 中 有 和 多少 记 录 ，n_bits 属 性 的 值 就 是 多 少 。 为 了 让 之 后 在 页 面 中 插入 了 新 记 
录 后 也 不 至 于 重新 分 配 锁 结构 ， 所 以 n_bits 的 值 一 般 都 比 页 面 中 记录 条 数 多 一 些 。 















































。 type mode: 


这 是 一 个 32 位 的 数 ， 被 分 成 了 lock_mode 、 lock_type 和 rec_lock_type 三 个 部 分 ， 如 图 所 示 : 


type_mode 的 各 个 二 进 制 位 的 作用 


pe | 同 可 本 





低 4 位 表示 lock_mode 
其 余 的 位 表示 lock_mode 第 5~8 位 表示 lock_mode 


= 锁 的 模式 ( lock_mode ) ， 占 用 低 4 位 ， 可 选 的 值 如 下 : 

o LOCK IS (十 进 制 的 0 ) : 表示 共享 意向 锁 ， 也 就 是 IS 锁 。 
LOCK_IX (十 进 制 的 1 ) : 表示 独占 意向 锁 ， 也 就 是 IX 锁 。 
LOCK_S (十 进 制 的 2 ) : 表示 共享 锁 ， 也 就 是 S 锁 。 
LOCK X (十 进 制 的 3 ) : 表示 独占 锁 ， 也 就 是 X 锁 。 
LOCK_AUTO_INC (十进制 的 4 ) : 表示 AUTO-INC 锁 。 


Le] O Le oo 


小 贴 士 : 
在 InnoDB 存 储 引 擎 中 ，LOCK_ IS，LOCK_IX，LOCK_AUTO_INC 都 算是 表 级 锁 的 模式 ，LOCK S 
和 LOCK _X 既 可 以 算是 表 级 锁 的 模式 ， 也 可 以 是 行 级 锁 的 模式 。 


" 锁 的 类 型 ( lock_type ) ， 占 用 第 5 ~ 8 位 ， 不 过 现 阶 段 只 有 第 5 位 和 第 6 位 被 使 用 : 
o。 LOCK TABLE (十进制 的 16 ) ， 也 就 是 当 第 5 个 比特 位 置 为 1 时 ， 表 示 表 级 锁 。 
o。 LOCK_REC (十进制 的 32 ) ， 也 就 是 当 第 6 个 比特 位 置 为 1 时 ， 表 示 行 级 锁 。 
。 行 锁 的 具体 类 型 ( rec lock type ) ， 使 用 其 余 的 位 来 表示 。 只 有 在 lock_type 的 值 为 LOCK_REC 时 ， 
也 就 是 只 有 在 该 锁 为 行 级 锁 时 ， 才 会 被 细 分 为 更 多 的 类 型 : 
o。 LOCK_ORDINARY (十进制 的 0 ) : 表示 next-key 锁 。 
o。 LOCK_GAP (十进制 的 512 ) : 也 就 是 当 第 10 个 比特 位 置 为 时， 表示 gap 锁 。 
o。 LOCK_REC_NOT_GAP “(十进制 的 1024 ) : 也 就 是 当 第 11 个 比特 位 置 为 1 时 ， 表 示 正经 记录 锁 。 
o。 LOCK INSERT INTENTION (十 进 制 的 2048 ) : 也 就 是 当 第 12 个 比特 位 置 为 1 时 ， 表 示 插 入 意向 
锁 。 
其 他 的 类 型 : 还 有 一 些 不 常用 的 类 型 我 们 就 不 多 说 了 。 


怎么 还 没 看 见 is_waiting 属性 呢 ? 这 主要 还 是 设计 InnoDB 的 大 叔 太 抠门 了 ， 一 个 比特 位 也 不 想 浪 
费 ， 所 以 他 们 把 is_waiting 属性 也 放 到 了 type_mode 这 个 32 位 的 数字 中 : 

LOCK_ WAIT (十进制 的 256 ) : 也 就 是 当 第 9 个 比特 位 置 为 1 时 ， 表 示 is_waiting 为 true ， 也 
就 是 当前 事务 尚未 获取 到 锁 ， 处 在 等 待 状态 ; 当 这 个 比特 位 为 0 时 ， 表 示 is waiting 为 false ， 
也 就 是 当前 事务 获取 锁 成 功 。 
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。 其 他 信息 : 
为 了 更 好 的 管理 系统 运行 过 程 中 生成 的 各 种 锁 结构 而 设计 了 各 种 哈 希 表 和 链表 ， 为 了 简化 讨论 ， 我 们 忽略 这 
部 分 信息 哈 ~ 





。 比特 位 : 

















如 果 是 行 锁 结构 的 话 ， 在 该 结构 末尾 还 放置 了 一 堆 比 特 位 ， 比 特 位 的 数量 是 由 上 边 提 到 的 n_bits 属性 表示 
的 。 我 们 前 边 路 明 InnoDB 记 录 结 构 的 时 候 说 过 ， 页 面 中 的 每 条 记录 在 记录 头 信息 中 都 包含 一 个 heap_no 属 
性 ， 伪 记录 Infimum 的 heap_no 值 为 0 ， Supremun 的 heap_no 值 为 1 ， 之 后 每 插入 一 条 记录 ， heap_no 
值 就 增 1。 锁 结 构 最 后 的 一 堆 比特 位 就 对 应 着 一 个 页 面 中 的 记录 ， 一 个 比特 位 映射 一 个 heap_no ， 不 过 为 
了 编码 方便 ， 映 射 方式 有 点 怪 : 


比特 位 和 heap_no 的 映射 


对 应 的 heap no: 765432101514131211109 8 … 





小 贴 士 : 
这 么 怪 的 映射 方式 纯粹 是 为 了 敲 代 码 方便 ， 大 家 不 要 大 惊 小 怪 ， 只 需要 知道 一 个 比特 位 映射 到 页 
内 的 一 条 记录 就 好 了 。 






































可 能 上 边 的 描述 大 家 觉得 还 是 有 些 抽 象 ， 我 们 还 是 举 个 例子 说 明 一 下 。 比 方 说 现在 有 两 个 事务 T1 和 T2 想 对 
hero 表 中 的 记录 进行 加 锁 ， hero 表 中 记录 比较 少 ,假设 这 些 记录 都 存储 在 所 在 的 表 空 间 号 为 67 ， 页 号 为 3 的 
页 面 上 ， 那 么 如 果 : 





。 Tl 想 对 numper 值 为 15 的 这 条 记录 加 $ 型 正常 记录 锁 ， 在 对 记录 加 行 锁 之 前 ， 需 要 先 加 表 级 别 的 IS 锁 ， 
也 就 是 会 生成 一 个 表 级 锁 的 内 存 结构 ， 不 过 我 们 这 里 不 关心 表 级 锁 ， 所 以 就 忽略 掉 了 哈 ~ 接 下 来 分 析 一 下 生 
成 行 锁 结 构 的 过 程 : 

。 事务 T1 要 进行 加 锁 ， 所 以 锁 结 构 的 锁 所 在 事务 信息 指 的 就 是 T1 。 
” 直接 对 聚 复 索 引进 行 加 锁 ， 所 以 索引 信息 指 的 其 实 就 是 PRIMARY 索引 。 
" 由 于 是 行 锁 ， 所 以 接 下 来 需要 记录 的 是 三 个 重要 信息 : 
o Space ID : 表 空 间 号 为 67 。 
o Page Number : 页 号 为 3 。 
。 n bits : 我 们 的 hero 表 中 现在 只 插入 了 5 条 用 户 记录 ， 但 是 在 初始 分 配 比 特 位 时 会 多 分 配 一 些 ， 
这 主要 是 为 了 在 之 后 新 增 记录 时 不 用 频繁 分 配 比 特 位 。 其 实 计 算 n_bits 有 一 个 公式 : 





n bits = (1 + ((n recs + LOCK PAGE BITMAP MARGIN) / 8)) * 8 


其 中 n_recs 指 的 是 当前 页 面 中 一 共有 和 多少 条 记录 ( 算 上 伪 记 录 和 在 垃圾 链表 中 的 记录 ) ， 比 方 说 
现在 hero 表 一 共有 7 条 记录 (5 条 用 户 记 录 和 2 条 伪 记 录 ) ， 所 以 n_recs 的 值 就 是 7 ， 
LOCK PAGE BITMAP MARGIN 是 一 个 固定 的 值 64 ， 所 以 本 次 加 锁 的 n_bits 值 就 是 : 


nbits= (1 + ((7 + 64) / 8)) * 8 = 72 


o。 type_mode 是 由 三 部 分 组 成 的 : 
o。 lock_mode ， 这 是 对 记录 加 S 锁 ， 它 的 值 为 LOCK S 。 
o。 lock_type ， 这 是 对 记录 进行 加 锁 ， 也 就 是 行 锁 ， 所 以 它 的 值 为 LOCK_REC 。 
o rec_lock_type ， 这 是 对 记录 加 正经 记录 锁 ， 也 就 是 类 型 为 LOCK_REC NOT_GAP 的 锁 。 另 
外 ， 由 于 当前 没有 其 他 事务 对 该 记录 加 锁 ， 所 以 应 当 获 取 到 锁 ， 也 就 是 LOCK_WAIT 代表 的 二 进 
制 位 应 该 是 0。 


综 上 所 属 ， 此 次 加 锁 的 type_mode 的 值 应 该 是 : 





type mode = LOCK S | LOCK REC | LOCK REC NOT GAP 
也 就 是 : 
type mode = 2 | 32 | 1024 = 1058 

。 其 他 信息 


略 ~ 
”一 堆 比特 位 


因为 number 值 为 15 的 记录 heap_no 值 为 5 ， 根 据 上 边 列 举 的 比特 位 和 heap_no 的 映射 图 来 看 ， 应 该 
是 第 一 个 字 节 从 低位 往 高 位 数 第 6 个 比特 位 被 置 为 1， 就 像 这 样 : 


OR OA 


综 上 所 述 ， 事 务 T1 为 number 值 为 5 的 记录 加 锁 生 成 的 锁 结构 就 如 下 图 所 示 : 


PRIMARY 
9pace ID : 67 


Page Number : 3 
nxDIsS 2 


1058 


其 他 信息 


001000000000… 





。 T2 想 对 number 值 为 3 、 8 、 15 的 这 三 条 记录 加 X 型 的 next-key 锁 ， 在 对 记录 加 行 锁 之 前 ， 需 要 先 加 表 


级 别 的 IX 锁 ， 也 就 是 会 生成 一 个 表 级 锁 的 内 存 结构 ， 不 过 我 们 这 里 不 关心 表 级 锁 ， 所 以 就 忽略 掉 了 哈 ~ 


现在 T2 要 为 3 条 记录 加 锁 ， number 为 3 、 8 的 两 条 记录 由 于 没有 其 他 事务 加 锁 ， 所 以 可 以 成 功 获取 这 条 记 
录 的 X 型 next-key 锁 ， 也 就 是 生成 的 锁 结 构 的 is_waiting 属性 为 false ; 但 是 number 为 15 的 记录 已 经 
被 Tl 加 了 S$ 型 正经 记录 锁 ， T2 是 不 能 获取 到 该 记录 的 X 型 next-key 锁 的 ， 也 就 是 生成 的 锁 结 构 的 
is_waiting 属性 为 true 。 因 为 等 待 状态 不 相同 ， 所 以 这 时 候 会 生成 两 个 锁 结构 。 这 两 个 锁 结 构 中 相同 的 
属性 如 下 : 

" 事务 T2 要 进行 加 锁 ， 所 以 锁 结构 的 锁 所 在 事务 信息 指 的 就 是 T2 。 

" 直接 对 聚 复 索 引进 行 加 锁 ， 所 以 索引 信息 指 的 其 实 就 是 PRIMARY 索引 。 

" 由 于 是 行 锁 ， 所 以 接 下 来 需要 记录 是 三 个 重要 信息 : 

o Space ID : 表 空 间 号 为 67 。 

Page Number : 页 号 为 3 。 
n_bits : 此 属性 生成 策略 同 T1 中 一 样 ， 该 属性 的 值 为 72 。 
type_mode 是 由 三 部 分 组 成 的 : 

o。 lock_mode ， 这 是 对 记录 加 X 锁 ， 它 的 值 为 LOCK_X 。 

。 lock_type ， 这 是 对 记录 进行 加 锁 ， 也 就 是 行 锁 ， 所 以 它 的 值 为 LOCK_REC 。 

o rec_lock_type ， 这 是 对 记录 加 next-key 锁 ， 也 就 是 类 型 为 LOCK_ORDINARY 的 锁 。 











oo O O 

















不 同 的 属性 如 下 : 














- 为 number 为 3 、 8 的 记录 生成 的 锁 结构 : 
一 ”type mode 值 。 


由 于 可 以 获取 到 锁 
置 0。 所 以 : 








， 上 所 以 is _ waiting 

















为 false  ， 也 就 是 "LOCK WAIT 代表 的 二 进 制 位 被 
type mode = LOCK X | LOCK REC |LOCK ORDINARY 
也 就 是 





type mode =3 | 32 | 0=35 


- 一 扒 比 特 位 























ap_no 的 映射 图 来 看 


看 ， 应 该 是 第 


因为 number 值 为 3 、 8 的 记录 heap_no 值 分 别 为 3 、 4 ， 根 据 上 边 列 举 的 比特 位 和 he 


个 字 节 从 低位 往 高 位 数 第 4、5 个 比特 位 被 置 为 1， 就 像 这 样 : 
![image ld9krhp4flgd7hb4nhv1j182cb2g. png-21. 2kB] [17] 





























综 上 所 述 ， 引 





有 务 T2 为 number 值 为 3 、 8 两 条 记录 加 锁 和 9 








E 成 的 锁 结 构 就 如 下 图 所 示 
![image ld9krl3imlqr2tb4k1810bsl8ak37. png-40. 4kB] [18] 
- 为 number 为 15 的 记录 生成 的 锁 结构 : 

- type mode 值 。 


由 于 可 以 获取 到 锁 
置 1。 所 以 : 








， 所 以 is waiting 

















为 "true ， 也 就 是 -LOCK_WAIT 代表 的 二 进 制 位 被 





type mode = LOCK X | LOCK REC |LOCK ORDINARY | LOCK_WAIT 
也 就 是 


type mode =3 | 32 | 0 | 256 = 291 


- 一 堆 比 特 位 











而 





























因为 number 值 为 15 的 记录 heap_ no 值 为 5， 
来 看 ， 应 该 是 第 一 个 字 节 从 低位 全 




















民 据 上 边 列 举 的 比特 位 和 heap_no 的 映射 
主 高 位 数 第 6 个 比特 位 被 置 为 1， 就 像 这 样 : 











[image_1d9krpp171m7r2prc8c 


nhulhkf3k. png-20. 5kB] [19] 
综 上 所 述 ， 


| 中 





和 务 T2 为 number 值 为 15 的 记录 加 锁 生 成 的 锁 结 构 就 如 下 图 所 示 ; 
![image ld9krv360145ub7vdr4capl6ba4h. png-43. 4kB] [20] 








综 上 所 述 ， 事 务 T1 先 获取 number 值 为 15 的 $ 型 正经 记录 锁 ， 然 后 事务 T2 获取 number 值 为 3 、8 、15 的 





X 型 正经 记录 锁 共 需 要 生成 3 个 锁 结构 。 噶 ~ 关于 锁 结 构 我 本 来 就 想 写 一 点 点 的 ， 没 想到 一 些 起 来 就 停 不 下 了 ， 
大 家 乐 呵 乐 呵 看 哈 ~ 
小 贴 士 : 








上 边 事务 T2 在 对 number 值 分 别 为 3、8、15 这 三 条 记录 加 锁 的 情景 中 ， 是 按照 先 对 number 值 为 3 的 记录 加 
锁 、 再 对 number 值 为 8 的 记录 加 锁 ， 最 后 对 number 值 为 15 的 记录 加 锁 的 顺序 进行 的 ， 如 果 我 们 一 开始 就 
对 number 值 为 15 的 记录 加 锁 ， 那 么 该 事务 在 为 number 值 为 15 的 记录 生成 一 个 锁 结构 后 ， 直 接 就 进入 等 待 
状态 ， 就 不 为 number 值 为 3、8 的 两 条 记录 生成 锁 结构 了 。 在 事务 T1 提 交 后 会 把 在 number 值 为 15 的 记录 上 
获取 的 锁 释 放 掉 ， 然 后 事务 T2 就 可 以 获取 该 记录 上 的 锁 ， 这 时 再 对 number 值 为 3、8 的 两 条 记录 加 锁 时 ， 
就 可 以 复 用 之 前 为 number 值 为 15 的 记录 加 锁 时 生成 的 锁 结构 了 。 


25.4 更 多 内 容 


欢迎 各 位 关注 我 的 微 信 公众 号 『[ 我 们 都 是 小 青蛙 ] ， 那 里 有 更 多 技术 干货 与 特色 扯 犊 子 文章 (后续 会 在 公众 号 中 
发 布 各 种 不 同 的 语句 具体 的 加 锁 情况 分 析 ， 冤 请 期 待 )。 


26 第 26 章 写作 本 书 时 用 到 的 一 些 重要 的 参考 资料 
26.1 感谢 


我 不 生产 知识 ， 只 是 知识 的 搬运 工 。 写 作 本 小 册 的 时 间 主 要 用 在 了 两 个 方面 : 
。 搞 清楚 事情 的 本 质 是 什么 。 


这 个 过 程 就 是 研究 源码 、 书 籍 和 资料 。 
如 何 把 我 已 经 知道 的 知识 表达 出 来 。 


这 个 过 程 就 是 我 不 停 的 在 地 上 走 过 来 走 过 去 ， 梳 理 知识 结构 ， 苦 酌 用 词 用 句 ， 不 停 的 将 已 经 写 好 的 文章 推倒 
重 来 ， 只 是 想 给 大 家 一 个 不 错 的 用 户 体验 。 


这 两 个 方面 用 的 时 间 基 本 上 是 一 半 一 半 吧 ， 在 搞 清楚 事情 的 本 质 是 什么 阶段 ， 除 了 直接 阅读 MySQL 的 源码 之 外 ， 
查看 参考 资料 也 是 一 种 比较 偷懒 的 学 习 方 式 。 本 书 只 是 MySQL 进 阶 的 一 个 入 门 ， 想 了 解 更 多 关于 MySQL 的 知识 ， 
大 家 可 以 从 下 边 这 些 资料 里 找 点 灵感 。 




























































































26.1.1 一 些 链接 


。 MySQL 官 方 文档 : https:/dev.mysql.com/doc/refman/5.7/en/ (https://dev.mysql.com/doc/refman/5.7/en/) 


MySQL 官方 文档 是 写作 本 书 时 参考 最 多 的 一 个 资料 。 说 实话 ， 文 档 写 的 非常 通俗 易 懂 ， 唯 一 的 缺点 就 是 太 长 
了 ， 导 致 大 家 看 的 时 候 无 从 下 手 。 


介绍 MySQL 如 何 实现 各 种 功能 的 文档 ， 写 的 比较 好 ， 但 是 太 少 了 ， 有 很 多 章节 直接 跳 过 了 。 
何 登 成 的 github: https://github.com/hedengcheng/tech (https://github.com/hedengcheng/tech) 


登 博 的 博客 非常 好 ， 对 事务 、 优 化 这 讨论 的 细节 也 非常 多 ， 不 过 由 于 大 多 是 PPT 结 构 ， 字 太 少 ， 对 上 下 文 不 
清楚 的 同学 可 能 会 一 脸 懂 通 。 
orczhou 的 博客 : http://www.orczhou.com/ (http://www.orczhou.com/) 
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Jeremy Cole 大 神 不 仅 写 作 了 innodb_rupy 这 个 非常 棒 的 解析 InnoDB 存储 结构 的 工具 ， 还 对 这 些 存储 结构 
写 了 一 系列 的 博客 ， 在 我 几乎 要 放弃 深入 研究 表 空 间 结构 的 时 候 ， 是 他 老人 家 的 博客 把 我 又 从 深渊 里 拉 了 回 
那 海蓝 监 ( 李 海 翔 ) 的 博客 : https://blog.csdn.net/fly2nn (https://blog.csdn.net/fly2nn) 





因为 MySQL 的 源码 非常 多 ， 经 常 让 大 家 无 从 下 手 ， 而 taobao 月 报 就 是 一 个 非常 好 的 源码 阅读 指南 。 


吐槽 一 下 ， 这 个 taobao 月 报 也 只 能 当 作 源 码 阅 读 指南 看 ， 如 果真 的 不 看 源码 光 看 月 报 ， 那 只 能 当 
作 天 书 看 ， 十 有 八 九 被 绕 进 去 出 不 来 了 。 



































不 得 不 说 mariadb 的 文档 相 比 MySQL 的 来 说 就 非常 有 艺术 性 了 (里 边 儿 有 很 多 漂亮 的 插图 ) ， 我 很 怀疑 
MySQL 文 档 是 程序 员 直 接 写 的 ，mariadb 的 文档 是 产品 经 理 写 的 。 当 我 们 想 研究 某 个 功能 的 原理 ， 在 MySQL 
文档 干巴 巴 的 说 明 中 找 不 到 头脑 时 ， 可 以 参考 一 人 mariadb 娓 娓 道 来 的 风格 。 


Reconstructing Data Manipulation Queries from Redo Logs: https://www.sba-research.org/wp- 











server) 


26.1.2 一 些 书籍 


《数据 库 查 询 优 化 器 的 艺术 》 李 海 翔 著 


大 家 可 以 把 这 本 书 当 作 源码 观看 指南 来 看 ， 不 过 讲 的 是 5.6 的 源码 ，5.7 里 重 构 了 一 些 ， 不 过 大 体 的 思路 还 是 
可 以 参考 的 。 
《MySQL 运 维 内 参 》 周 彦 伟 、 王 竹 峰 、 强 昌 人 金 著 


内 参 里 有 许多 代码 细节 ， 是 一 个 阅读 源码 的 比较 好 的 指南 。 
《Effectiv MySQL: Optimizing SQL Statements》Ronald Bradford 著 


小 册子 ， 可 以 一 口气 看 完 ， 对 了 解 MySQL 查 询 优 化 的 大 概 内 容 还 是 有 些 好 处 滴 。 
《高 性 能 MySQL》 瓦 荡 (Baron Schwartz) / 扎 伊 采 夫 (Peter Zaitsev) / 特 卡 琴 科 (Vadim Tkachenko) 著 


经 典 ， 对 于 第 三 版 的 内 容 来 说 ， 如 果 把 第 2 章 和 第 3 章 的 内 容 放 到 最 后 就 更 好 了 。 不 过 作者 更 愿意 把 MySQL 当 
作 一 个 黑 盒 去 讲述 ， 主 要 是 说 明了 如 何 更 好 的 使 用 MySQL 这 个 软件 ， 这 一 点 从 第 二 版 向 第 三 版 的 转变 上 就 可 
以 看 出 来 ， 第 二 版 中 涉及 的 许多 的 底层 细节 都 在 第 三 版 中 移 除了 。 和 总 而 言 之 它 是 MySQL 进 阶 的 一 个 非常 好 的 
入 门 读物 。 

《数据 库 事务 处 理 的 艺术 》 李 海 翔 著 


同 《数据 库 查 询 优化 器 的 艺术 》。 
《MySQL 技 术 内 幕 : InnoDB 人 存储 引擎 第 2 版 》 姜 承 尧 著 


学 习 MySQL 内 核 进 阶 阅读 的 第 一 本 书 。 
《MySQL 技 术 内 幕 第 5 版 》 Paul DuBois 著 


这 本 书 是 对 于 MySQL 使 用 层面 的 一 个 非常 详细 的 介绍 ， 也 就 是 说 它 并 不 涉及 MySQL 的 任何 内 核 原 理 ， 甚 至 
连 索 引 结 构 都 懒得 讲 。 像 是 一 个 老 妈 子 在 给 你 不 停 的 啼 明 吃 饭 怎 么 吃 ， 喝 水 怎么 喝 ， 怎 么 上 厕所 的 各 种 加 
明 。 整 体 风格 比较 像 MySQL 的 官方 文档 ， 如 果 有 想 从 使 用 层面 从 头 了 解 MySQL 的 同学 可 以 尝试 的 看 看 。 
《数据 库 系统 概念 》 ( 美 ) Abraham Silberschatz /，( 美 ) Henry FKorth/ ( 美 ) S.Sudarshan 著 


这 本 书 对 于 入 门 数据 库 原理 来 说 非常 好 ， 不 过 看 起 来 学 术 气 味 比 较 大 一 些 ， 毕 竟 是 一 本 正经 的 教科 书 ， 里 边 
有 不 少 的 公式 哈 的 。 
《事务 处 理 概念 与 技术 》Jim Gray / Andreas Reuter 著 


这 本 书 只 是 象征 性 的 看 了 1 ~ 5 章 ， 说 实话 看 不 太 懂 ， 总 是 get 不 到 作者 要 表达 的 点 。 不 过 听 说 业界 非常 推崇 
这 本 书 ， 而 恰巧 我 也 看 过 一 点 ， 就 号 上 了， 有 兴趣 的 同学 可 以 去 看 看 。 


26.1.3 说 点 不 好 的 


上 边 尽 说 这 些 参考 资料 如 何如 何 好 了 ， 主 要 是 因为 在 我 写作 过 程 中 的 确 参 考 到 了 ， 没 有 这 些 资料 可 能 三 五 年 都 无 
法 把 小 册 写 完 。 但 是 除了 MySQL 的 文档 以 及 《高 性 能 MySQL》、《Effectiv MySQL: Optimizing SQL 
Statements》 这 两 本 书 之 外 ， 其 余 的 资料 在 大 部 分 时 间 都 是 看 的 我 头晕 眼花， 四 胶 乏 力 ， 不 看 个 十 遍 八 遍 基本 无 
法 理 清 楚 作者 想 要 表达 的 点 ， 这 也 是 我 写本 小 册 的 初 囊 --- 让 天 下 没有 难 学 的 知识 。 


26.1.4 结语 


希望 这 是 各 位 2019 年 最 爽 的 一 次 知识 付费 ， 如 果 各 位 因为 阅读 本 小 册 而 顺利 通过 面试 ， 或 者 解决 了 工作 中 的 很 多 
技术 问题 ， 觉 得 29.9 实 在 是 太 物 超 所 值 ， 希 望 各 位 能 来 给 点 打 赏 (本 人 很 穷 ， 靠 救济 生活 ~ 添加 好 友 可 以 问 关于 
小 册 的 问题 ， 不 过 希望 不 要 扯 犊 子 聊 八 卦 了 ， 我 其 实 挺 忙 的 ~ 微 信 号 : xiaohaizi4919) 。 


小 贴 士 : 

请 允许 我 鄙视 一 下 那些 打 着 知识 付费 骗 钱 的 人 ， 除 了 不 生产 一 点 社会 价值 外 ， 反 而 生产 了 数 不 清 的 焦 
虑 ， 让 人 们 连 幸 福 感 都 丧失 掉 了 。 也 请 各 位 警惕 那些 说 只 要 你 交 几 百 块 钱 ， 就 能 得 到 诸如 境界 上 的 提 
升 、 开 阔 了 了 眼界、 追赶 上 行业 发 展 趋势 之 类 的 课程 /知识 付费 ， 这 类 抽象 而 无 法 验证 的 主题 都 是 骗 人 
的 。 








































































































